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DW2.0 下 一 代数 据 仓库 的 构架 


这 个 行业 很 长 时 间 以 来 就 已 经 需要 一 个 关于 数据 仓库 的 定义 了 ， 而 DW2 .0 不 仅仅 提供 了 这 
A 
| 





Dan Meers， 上 弗 雷 德 马 克 公 司 企业 构架 副 主席 
这 本 新 的 著作 通过 引入 生命 周期 管理 、 非 结构 化 数据 和 新 的 整合 元 数据 的 方法 ， 使 DW2.0 

更 清晰 。 
-一 一 Marvin Adams， 富 达 投 资 公 司 共 享 服务 主席 


第 二 代数 据 仓库 已 经 来 临 ! 在 本 书 中 ， 数 据 仓 库 之 父 问 有 较 强 信息 需求 的 公司 展示 了 一 些 技术 
和 构架 上 的 可 能 性 ， 是 数据 仓库 和 商业 智能 领域 的 又 一 部 经 典 著 作 。 
本 书包 含 了 DW2.0 详 细 的 定义 和 描述 ， 讨 论 了 整个 生命 周期 各 个 环节 的 具体 工作 ， 从 业务 需求 
的 视角 引导 读者 全 面 认识 下 一 代数 据 仓库 系统 的 构架 。 
本 书 特 色 
二 
@ 充分 地 解释 了 在 数据 仓库 环境 中 非 结构 化 数据 的 整合 。 
@ 彻底 地 讨论 了 DW2.0 的 所 有 相关 问题 ， 包 括 非 结构 化 数据 、 业 务 元 数据 、 统 计 处 理 和 探索 处 理 、 
安全 、 粒 度 和 系统 性 能 。 
@ 对 从 DW1.0 顺 利 迁 移 到 DW2.0 提 供 了 专家 级 建议 。 


W el lebeore)el 数据 仓库 之 父 。 他 一 直 致 力 于 数据 库 和 数据 仓库 技术 方面 的 研究 ， 在 

数据 管理 和 数据 仓库 技术 方面 以 及 数据 处 理 的 管理 方面 撰写 了 49 本 
著作 ， 发 表 过 1090 多 篇 学 术 论 文 。 他 创建 了 世界 上 第 一 个 ETL 软 件 公 司 ， 最 新 成 立 的 一 个 公司 是 Forest 
Rim Technology 公 司 ， 该 公司 致力 于 非 结构 化 数据 的 存 取 并 将 其 整合 到 结构 化 环境 中 。 


Gavroshe 公 司 的 创始 人 、CEO 和 首席 顾问 。 他 拥有 28 年 IT 界 从 业经 
Derek Strauss 验 和 22 年 信息 资源 管理 及 商业 智能 /数据 仓库 领域 的 从 业经 验 , 


Gavroshe 公 司 的 联合 创始 人 和 首席 顾问 。30 多 年 来 ， 她 在 保 
Genia Neushloss 险 业 、 金 融 业 、 制 造 业 、 采 矿业 及 电信 业 都 拥有 相当 深厚 的 
管理 及 技术 经 验 。 
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体 工作 ,从 业务 需求 的 视角 ， 引 导读 者 全 面 认 识 下 一 代数 据 仓库 系统 的 构架 。 本 书包 含 了 
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出 版 者 的 话 


文 乙 复兴 以 降 ， 源 远 流 长 的 科学 精神 和 逐步 形成 的 学 术 规范 ， 使 西方 国家 在 自然 科学 的 
各 个 领域 取得 了 垄断 性 的 优势 ; 也 正 是 这 样 的 传统 ， 使 美国 在 信息 技术 发 展 的 六 十 多 年 间 名 
家 这 出 、 独 领 风骚 。 在 商业 化 的 进程 中 ,美国 的 产业 界 与 教育 界 越 来 越 紧密 地 结合 ， 计 算 机 
学 科 中 的 许多 泰山 北斗 同时 身 处 科研 和 教学 的 最 前 线 ， 由 此 而 产生 的 经 典 科学 著作 ， 不 仅 璧 
划 了 研究 的 范畴 ， 还 揭示 了 学 术 的 源 变 ， 既 遵循 学 术 规范 ， 又 自 有 学 者 个 性 ， 其 价值 并 不 会 
因 年 月 的 流逝 而 减退 。 

近年 ， 在 全 球 信息 化 大 潮 的 推动 下 ， 我 国 的 计算 机 产业 发 展 迅猛 ， 对 专业 人 才 的 需求 日 
符 迫 切 。 这 对 计算 机 教育 界 和 出 版 界 都 既是 机 遇 ， 也 是 挑战 ; 而 专业 教材 的 建设 在 教育 战略 
上 显得 党 足 轻重。 在 我 国信 息 技术 发 展 时间 较 短 的 现状 下 ， 美 国 等 发 达 国家 在 其 计算 机 科学 
发 展 的 几 十 年 间 积淀 和 发 展 的 经 典 教材 仍 有 许多 值得 借鉴 之 处 。 因 此 ， 引 进 一 批 国外 优秀 计 
算 机 教材 将 对 我 国 计 算 机 教育 事业 的 发 展 起 到 积极 的 推动 作用 ， 也 是 与 世界 接轨 、 建 设 页 正 
的 世界 一 流 大 学 的 必由之路 。 

机 械 工 业 出 版 社 华章 公司 较 早 意识 到 “出 版 要 为 教育 服务 ”"。 自 1998 年 开始 ， 我 们 就 
将 工作 重点 放 在 了 六 选 、 移 译 国外 优秀 教材 上 。 经 过 多 年 的 不 懈 努 力 ， 我 们 与 Pearson 
MceGraw-Hill, Elsevier, MIT, John Wiley & Sons ，Cengage 等 世界 著名 出 版 公司 建立 了 良好 的 
合作 关系 ， 从 他 们 现 有 的 数 百 种 教材 中 甄选 出 Andrew S. Tanenbaum ，Bjarne Stroustrup, 
Brain W. Kernighan, Dennis Ritchie, Jim Gray, Afred V. Aho, John E. Hopcroft ，Jeffrey D. 
Ullman, Abraham Silberschatz, William Stallings, Donald E. Knuth, John L. Hennessy, Larry 
LPeterson 等 大 师 名 家 的 一 批 经 典 作品 ， 以 “计算 机 科学 丛书 ”为 总 称 出 版 ， 供 读者 学 习 、 
饶 究 及 珍藏 。 大 理 石 纹理 的 封面 ， 也 正体 现 了 这 套 从 书 的 品位 和 格调 。 

“计算 机 科学 丛书 ”的 出 版 工作 得 到 了 国内 外 学 者 的 鼎力 襄 助 ， 国 内 的 专家 不 仅 提 供 了 
中 上 朋 的 选 题 指导 ， 还 不 辞 劳苦 地 担任 了 翻译 和 审 校 的 工作 ;而 原 书 的 作者 也 相当 关注 其 作品 
在 中 国 的 传播 ， 有 的 还 专程 为 其 书 的 中 译本 作 序 。 迄 今 , “计算 机 科学 丛书 ”已 经 出 版 了 近 
两 白 个 品种 ， 这 些 书籍 在 读者 中 树立 了 良好 的 口碑 ， 并 被 许多 高 校 采用 为 正式 教材 和 参考 书 
格 。 其 影印 版 “经 典 原版 书库 ”作为 姊妹 篇 也 被 越 来 越 多 实施 双语 教学 的 学 校 所 采用 。 

权威 的 作者 、 经 典 的 教材 、 一 流 的 译 者 、 严 格 的 审 校 、 精 细 的 编辑 ， 这 些 因素 使 我 们 的 
图 书 有 了 质量 的 保证 。 随 着 计算 机 科学 与 技术 专业 学 科 建 设 的 不 断 完善 和 教材 改革 的 逐 浙 深 
化 ,教育 界 对 国外 计算 机 教材 的 需求 和 应 用 都 将 步 人 一 个 新 的 阶段 ， 我 们 的 目标 是 尽 盖 尽 
天 ， 而 反馈 的 意见 正 是 我 们 达到 这 一 终极 目标 的 重要 帮助 。 欢 迎 老 师 和 读者 对 我 们 的 工作 提 
出 建议 或 给 予 指正 ， 我 们 的 联系 方法 如 下 : 


华章 网 站 . www. hzbook. com 

电子 邮件 : hzjsj@ hzbook. com 

联系 电话 : (010) 88379604 

联系 地 址 北京 市 西城 区 百 万 庄 南 街 ] 号 
邮政 编码 : 100037 华章 科技 图 书 出 版 中 心 





译 者 序 


在 过 去 二 十 年 中 ， 数 据 仓 库 的 概念 一 直 在 逐步 进化 ，DW2. 0 是 对 数据 仓库 概念 最 新 的 
理解 和 描述 。 自 从 本 书 作者 Bil Inmon 首次 给 出 数据 仓库 定义 之 后 ， 该 定义 就 一 直 被 众多 研 
究 者 和 开发 者 所 引用 。 然 而 ， 人 们 常常 陷入 什么 是 数据 仓库 或 什么 不 是 数据 仓库 这 样 的 混乱 
或 疑惑 。 在 这 种 情况 下 ，DW2.0 尝试 对 下 一 代数 据 仓库 进行 全 方位 的 定义 。 与 术语 “数据 
仓库 ”不 同 ，DW2.0 有 着 简明 扼要 和 清晰 可 辨 的 含义 ， 本 书 对 其 含义 进行 了 详细 的 论述 和 
准确 的 定义 。 

本 书 是 数据 仓库 和 商业 智能 领域 的 又 一 部 经 典 著作 ， 作 者 Bill Inmon 等 人 在 数据 仓库 领 
. 域 享 有 很 高 的 声誉 ， 他 们 都 长 期 工作 在 数据 仓库 系统 开发 的 第 一 线 ， 将 自己 多 年 的 经 验 和 感 
悟 融入 到 了 本 书 的 字里行间 。 本 书 讲述 了 整个 生命 周期 各 个 环节 的 具体 工作 ， 从 业务 需求 的 
视角 ， 引 导读 者 全 面 认识 下 一 代数 据 仓库 系统 的 构架 。 本 书包 含 了 DW2.0 详细 的 定义 和 摘 
述 ， 所 有 的 内 容 被 分 为 不 同 的 章节 ， 其 中 每 一 个 章节 都 相当 于 该 部 分 内 容 的 白皮书 。 此 外 ， 
书 中 对 数据 仓库 的 结构 、 内 容 及 其 前 景 进行 了 介绍 。 本 书 主要 面向 数据 仓库 的 业务 分 析 人 
员 、 信 息 构 架 师 、 系 统 开 发 人 员 、 项 目 经 理 、 数 据 仓库 技术 人 员 、 数 据 库 管理 员 、 数 据 建 模 
人 员 、 数 据 管理 员 等 。 

本 书 的 翻译 凝结 了 许多 人 的 智慧 。 最 初 ， 第 1 章 由 付 彬 翻译 ,第 2 章 由 李 波 翻译 ,第 3 
章 由 邵 金 刚 和 李 亚 飞 翻译 ,第 4 章 由 汉 瑶 翻译 ,第 5 章 由 徐闻 于 翻 译 ， 第 6 章 由 王 倚 丹 翻 
译 ， 第 7 章 与 第 8 章 由 张 森 翻 译 ， 第 9 章 由 刘 雪 莲 翻译 ， 第 10 章 由 毛 佳 敏 翻译 ， 第 11 章 由 
杨 知 翻译， 第 12 章 由 李 志 邯 翻译， 第 13 章 由 武 婷 婷 翻 译 ， 第 14 章 由 郑 超 翻 译 ， 第 15 草 由 
王 奢 翻译， 第 16 章 与 第 17 章 由 俞 雪 娇 翻译 ， 第 18 章 由 郑 超 翻 译 ， 第 19 章 由 邵 晓 康 翻译 ， 
第 20 章 、 第 21 章 和 第 22 章 由 武 婷 婷 翻译 ， 第 23 章 由 冯 瑶 翻译 。 在 此 基础 上 ， 付 彬 和 武 婷 
婷 规 范 了 全 书 的 术语 ， 并 进行 了 认真 的 修订 。 汉 浩 、 王 世 强 、 邵 和 鲁 杰 、 邵 进 智 、 孙 兴 中 、 锅 
一 航 、 秦 退 、 赵 飞 国 、 刘 礼 辉 、 王 辉 、 张 学 勇 、 刘 学 军 、 冯 岩 、 杨 迪 、 黄 鼻 钦 以 及 王 中 锋 等 
参与 了 本 书 翻 译 的 讨论 。 最 后 ， 由 北京 交通 大 学 王 志 海 教授 和 滨州 学 院 王建 林 老 师 审 核 了 
全 书 。 

在 翻译 过 程 中 ， 我 们 无 一 不 被 Inmon 教授 等 人 的 蹇 智和 巨大 贡献 所 打动 ， 秉 持 “ 形 似 、 
意 似 、 神 似 ” 的 翻译 原则 ， 尽 最 大 的 努力 ,希望 奉 献 给 广大 读者 一 部 真实 反映 原著 风貌 的 
科技 书籍 。 

当然 ， 要 译 好 一 本 经 典 著 作 并 不 是 一 件 容易 的 事情 ， 我 们 的 水 平 还 很 从 缺 ， 错 误 之 处 还 
望 广大 读者 批评 指正 。 


译 者 
2010 年 1 月 
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数据 仓库 已 经 问世 二 十 多 年 了 ， 它 已 成 为 信息 技术 基础 设施 的 基本 组 成 部 分 。 数 据 仓库 
的 出 现 最 初 是 为 了 满足 对 信息 而 不 是 对 数据 的 企业 需求 。 数 据 仓库 是 一 个 能 够 为 企业 提供 整 
合 的 、 粒 度 的 、 历 史 的 数据 的 结构 。 

然而 ， 数 据 仓 库存 在 一 个 问题 ， 即 当前 对 数据 仓库 还 存在 多 种 不 同 的 解释 和 实现 方式 。 
例如 ， 有 联合 数据 仓库 、 主 动 数据 仓库 、 星 状 模式 数据 仓库 、 数 据 集 市 数据 仓库 等 。 实 际 
上 ， 有 多 少 软 硬 件 供应 商 ， 就 有 多 少 对 数据 仓库 的 诠释 和 实现 方式 。 

还 有 一 个 问题 就 是 ， 对 什么 样 的 结构 才 是 数据 仓库 适合 的 ， 也 存在 着 多 种 不 同 的 解释 和 
实现 方式 。 而 且 ， 每 一 种 实现 在 构架 上 都 与 其 他 的 实现 有 很 大 区 别 。 如 果 走 进 一 个 房间 ， 里 
面 联合 数据 仓库 的 支持 者 正在 与 主动 数据 仓库 的 支持 者 交谈 ， 你 也 许 会 听 到 一 些 相 同 的 词 
语 , 但 这 些 词 代表 的 意思 却 大 相 径 庭 。 即 使 使 用 相同 的 词语 ， 你 听 到 的 可 能 也 不 是 有 意义 的 
交流 。 当 两 个 不 同 背景 的 人 交谈 时 ， 即 使 使 用 相同 的 词语 ， 也 不 能 保证 他 们 彼此 能 够 相互 
理解 。 

于 是 , 今天 的 第 一 代数 据 仓库 就 处 于 这 种 情况 下 。 

在 陷入 什么 是 数据 仓库 或 什么 不 是 数据 仓库 这 样 的 混乱 或 疑惑 的 情况 下 ， 出 现 了 
DW2.0。DW2.0 是 对 下 一 代数 据 仓 库 的 定义 。 与 术语 “数据 仓库 ”不 同 ，DW2.0 有 着 简明 
扼要 和 清晰 可 辨 的 含义 。 本 书 对 其 含义 进行 了 论述 和 定义 。 

DW2.0 中 有 很 多 重要 的 构架 上 的 特征 。 这 些 构架 特征 代表 了 DW2.0 相对 于 第 一 代数 据 
仓库 在 技术 和 构架 上 的 进步 。 在 本 书 中 ， 我 们 讨论 了 DW2. 0 的 如 下 几 种 重要 特性 ; 

。 认识 到 数据 仓库 中 数据 的 生命 周期 。 第 一 代数 据 仓 库 仅 仅 将 数据 放 于 磁盘 存储 器 
( 称 之 为 仓库 ) 中 。 事 实 上 ， 数 据 一 旦 被 置 于 数据 仓库 ， 它 就 有 了 自己 的 生命 周期 。 
进入 数据 仓库 后 ， 数 据 开始 老化 ， 数 据 被 访问 的 可 能 性 也 逐渐 降低 。 而 数据 访问 的 
可 能 性 降低 对 选择 适当 的 数据 管理 技术 有 着 深远 的 含义 。 另 一 种 现象 是 ， 随 着 数据 
老化 ， 数 据 容量 会 不 断 增 加 ， 并 且 大 多 数 情 况 下 这 种 增加 是 显著 的 。 想 要 处 理 访问 
可 能 性 不 断 降低 的 大 量 数据 ， 就 需要 一 种 特定 的 设计 ， 以 免 数 据 仓库 的 花费 巨大 ， 
以 至 于 不 能 有 效 地 使 用 数据 仓库 。 

当 既 包含 结构 化 数据 又 包含 非 结构 化 数据 时 ， 数 据 仓库 是 最 有 效 的 方法 。 典 型 的 第 
一 代数 据 仓 库 完全 由 面向 事务 的 结构 化 数据 组 成 ， 这 些 数据 仓库 提供 了 大 量 有 用 的 
信息 。 然 而 ， 现 代数 据 仓 库 应 该 同时 包含 结构 化 数据 和 非 结 构 化 数据 。 非 结构 化 数 
据 是 一 些 文本 数据 ， 包 括 医 疗 记 录 、 人 合同、 电子 邮件 、 电 子 表格 以 及 很 多 其 他 的 文 
档 。 非 结构 化 数据 中 存在 着 大 量 的 信息 ， 但 如 何 获取 这 些 信息 却 着 实 是 一 个 挑战 。 
对 创建 同时 包括 结构 化 数据 和 非 结 构 化 数据 的 数据 仓库 都 有 哪些 要 求 的 具体 描述 是 
DW2.0 中 的 一 个 重要 部 分 。 

由 于 多 种 原因 ， 元 数据 并 没有 成 为 第 一 代数 据 仓库 的 重要 组 成 部 分 。 而 在 定义 第 二 
代数 据 仓库 时 ， 元 数据 的 重要 性 和 作用 开始 得 到 认可 。 在 DW2.0 中 ， 问 题 并 不 是 对 
于 元 数据 的 需求 。 元 数据 存在 于 数据 库 管 理 系统 目录 中 ， 存 在 于 业务 对 象 领域 中 ， 


存在 于 ETL 数据 预 处 理工 具 中 ， 等 等 。 我 们 需要 的 是 企业 元 数据 ， 是 从 企业 级 视角 
理解 元 数据 ， 需 要 调节 元 数据 的 所 有 来 源 并 将 它们 放置 在 一 个 能 使 它们 协调 工作 的 
环境 中 。 除 此 之 外 ， 在 DW2. 0 环境 中 还 需要 技术 元 数据 和 业务 元 数据 的 支持 。 
数据 仓库 最 终 建 立 在 一 种 技术 基础 之 上 。 数 据 仓 库 是 围绕 业务 需求 展开 的 ， 这 通常 
会 反映 在 数据 模型 上 。 随 着 时 间 的 推移 ， 企 业 的 业务 需求 会 发 生变 化 ， 但 数据 仓库 
的 技术 基础 却 不 能 很 容易 地 改变 。 这 样 ， 就 出 现 了 一 个 问题 ， 即 业务 需求 持续 变化 ， 
而 技术 基础 却 不 变 。 企 业 中 这 种 不 断 变 化 的 业务 环境 与 相对 稳定 的 技术 环境 之 间 的 
矛盾 会 在 机 构 内 形成 很 紧张 的 局 势 。 在 本 书 的 相关 部 分 中 ， 集 中 讨论 了 两 种 解决 方 
案 ， 用 于 处 理 数据 仓库 中 这 种 变化 的 业务 需求 和 不 变 的 技术 基础 之 间 的 难题 。 一 种 
解决 方案 是 采用 诸如 Kalido 这 样 的 软件 ， 其 为 数据 仓库 提供 了 一 种 有 延展 性 的 技术 
基础 。 另 一 种 解决 方案 是 在 数据 库 定 义 时 ， 通 过 设计 来 分 离 静 态 数据 和 临时 数据 。 
这 两 种 方案 对 数据 仓库 的 技术 基础 随 着 业务 需求 的 改变 而 改变 来 说 有 很 好 的 效果 。 
另外 ， 书 中 还 讨论 了 其 他 一 些 重要 的 话题 。 其 中 一 些 包括 : 

。 DW2.0 数据 仓库 基础 设施 的 在 线 更 新 。 

。 ODS 适用 于 哪里 ? 

。 针对 DW2.0 数据 仓库 的 研究 处 理 过 程 和 统计 分 析 。 

。 DW2.0 数据 仓库 环境 下 的 归档 处 理 。 

。 DW2.0 数据 仓库 环境 下 的 近 线 处 理 。 

。 数据 集 市 及 DW2. 0。 

。 数据 仓库 中 的 粒度 数据 和 数据 容量 。 

。 方法 论 及 开发 方式 。 

。 DW2.0 的 数据 模型 。 

本 书 的 一 个 重要 特色 是 运用 示意 图 来 从 整体 上 描绘 DW2.0 的 环境 。 示 意图 是 经 过 多 次 
咨询 、 研 讨 才 确定 的 ， 它 代表 了 DW2.0 中 放置 在 一 起 的 不 同 组件 ， 是 DW2.0 环境 的 一 个 基 
本 构架 表现 。 

此 外 ， 书 中 对 数据 仓库 的 结构 、 内 容 及 其 前 景 进行 了 介绍 。 本 书 适用 于 业务 分 析 人 员 、 
信息 构架 师 、 系 统 开 发 人 员 、 项 目 经 理 、 数 据 仓库 技 术 人 员 、 数 据 库 管 理 员 、 数 据 建 模 人 
员 、 数 据 管理 员 等 。 
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第 1 章 数据 仓库 简 史 及 第 一 代数 据 仓 库 


起 初 ， 人 们 仅 用 一 些 简单 的 机 制 来 保存 数据 。 例 如 ， 串 日 卡片 、 纸 带 、 容 量 很 小 的 磁 
心 存储 融 等 。 那 时 ， 存 储 器 非常 昂贵 并 且 容 量 相 当 有 限 。 

然而 随 着 磁带 的 发 明和 使 用 ， 一 个 内 新 的 时 代 也 随 之 来 临 。 使 用 磁带 能 够 廉价 地 保存 
海量 数据 。 并 且 ， 磁 带 对 数据 的 记录 格式 也 没有 太 大 的 限制 。 另 外 ， 在 磁带 中 数据 不 仅 
可 以 写 和 人 还 可 以 重新 写 人 。 因 此 ， 与 早先 的 存储 方法 相 比 ， 磁 带 的 使 用 代表 了 一 个 巨大 
的 飞跃 。 

然而 ， 磁 市 并 不 是 完美 的 。 由 于 在 磁带 中 是 顺序 地 访问 数据 ， 这 样 为 了 访问 其 中 1% 
的 数据 ， 常 常 可 能 需要 物理 地 访问 并 读 取 100% 的 数据 。 另 外 对 于 写 数据 来 说 ， 磁 带 并 不 
征 最 稳定 的 介质 。 磁 带 上 的 氧化 物 脱落 或 被 划 掉 ， 都 能 导致 其 无 法 使 用 。 

磁 抒 存储 代表 着 数据 存储 的 另 一 个 飞跃 。 使 用 磁盘 存储 ， 可 以 直接 访问 数据 ， 也 可 以 
车 与 。 为 外 ， 还 可 以 一 起 访问 多 个 数据 。 总 之 ， 磁 盘存 储 有 着 各 种 各 样 的 优点 。 


1.1 数据 库 管理 系统 


磁盘 存储 产生 不 久 ， 就 随 之 产生 了 一 种 称 为 “DBMS” (数据 库 管 理 系统 ) 的 软件 。 
DBMS 软件 的 产生 是 为 了 管理 磁盘 存储 。 磁 盘存 储 的 管理 活动 包括 : 

。 确定 数据 的 合适 位 置 。 

。 解决 当 两 个 或 多 个 数据 单元 被 映射 到 同一 个 物理 位 置 时 产生 的 冲突 。 

。 人 允许 数据 被 删除 。 

。 当 无 法 将 一 条 数据 记录 存储 到 一 个 容量 有 限 的 物理 空间 中 时 ， 负 责 为 其 寻找 合适 
的 物理 位 置 。 

。 其 他 。 

。 在 磁盘 存储 的 这 些 优点 中 ， 数 据 的 快速 定位 能 力 无 疑 是 其 中 最 重要 的 一 个 ， 而 正 
征 由 DBMS 完成 这 一 重要 的 任务 。 


1.2 在 线 应 用 


一 旦 利用 磁盘 存储 和 DBMS 使 数据 能 够 被 直接 访问 后 ， 就 很 快 出 现 了 所 谓 的 在 线 应 
用 。 在 线 应 用 使 用 计算 机 来 实现 对 数据 的 快速 一 致 的 访问 。 目 前 ,已 有 多 种 商业 的 在 线 
处 理应 用 ,包括 ATM (自动 柜员 机 )、 银 行 出 纳 处 理 、 投 诉 处 理 、 航 空 订 票 处 理 、 制 造 控 
制 处 理 、 零 售 网 点 的 销售 处 理 等 。 简 而 言 之 ， 在 线 系统 的 出 现 使 得 各 机 构 进 入 了 能 满足 
顾客 日 党 需 求 的 20 世纪 。 在 线 应 用 开始 变 得 强大 并 且 普 及 起 来 ， 并且 很 快 成 长 为 交叉 
应 用 。 

图 1-1 解释 了 这 种 信息 系统 的 早期 演化 。 

实际 上 ， 在 线 应 用 非常 受 欢迎 ， 增 长 得 很 迅速 ， 以 至 于 在 短期 内 就 迅速 出 现 了 大 量 的 
应 用 。 但 是 这 些 应 用 也 带 来 了 终端 用 户 的 抱怨 一 一 “我 知道 我 想 要 的 数据 是 在 某 个 地 方 ， 
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只 要 我 能 找到 它 。” 这 是 个 实际 的 情况 ， 公 司 拥有 了 一 大 堆 数据 ， 但 是 查找 数据 却 完全 是 
另外 一 回 事 。 并 且 ， 就 算 你 能 找 出 来 ， 也 不 能 保证 你 所 找到 的 数据 就 是 正确 的 。 公 司 的 
数据 正在 激增 ， 以 至 于 在 任何 一 个 时 间 点 用 户 都 无 法 保证 他 们 所 获得 的 数据 的 正确 性 和 
完整 性 。 





Sn 
在 线 处 理 ws. 


图 1-1 信息 系统 的 早期 演化 


1.3 个 人 电脑 和 4GL 技术 


为 了 平息 终端 用 户 对 访问 数据 的 抱怨 ， 两 种 新 的 技术 应 运 而 生 一 一 个 人 电脑 技术 和 
4GL 技术 。 

个 人 电脑 技术 使 得 任何 人 都 可 以 把 他 /她 自己 的 电脑 带 进 公司 ， 并 可 以 随意 地 做 他 /她 
目 己 的 处 理 。 出 现 了 像 电子 表格 〈spreadsheet) 这 样 的 个 人 电脑 软件 。 另 外 ， 个 人 电脑 的 
拥有 者 可 以 将 他 /她 的 数据 存储 在 自己 的 电脑 上 ， 这 样 就 不 再 需要 集中 式 的 IT 部 门 ， 结 果 
就 是 一 一 如 果 用 户 因 为 我 们 不 让 他 们 得 到 自己 想 要 的 数据 而 愤怒 ， 那 就 给 他 们 好 了 。 

大 约 在 同一 时 间 ， 另 一 种 技术 也 出 现 了 ， 称 为 4GL 一 一 第 4 代 技 术 。4GL 蕴涵 的 思想 
是 使 编程 和 系统 开发 简单 到 任何 人 都 可 以 做 。 这 样 一 来 ， 终 端 用 户 就 可 以 摆脱 必须 从 IT 
部 门 来 获取 企业 数据 的 束缚 。 

介 于 个 人 电脑 技术 与 4GL 技术 之 间 的 观点 是 释放 终端 用 户 ， 这 样 终端 用 户 就 可 以 将 
命运 掌握 在 自己 手中 。 我 们 需要 给 终端 用 户 访问 其 所 需 数据 的 自由 ， 来 满足 他 们 对 数据 
的 淘 望 。 

个 人 电脑 技术 和 4GL 技术 很 快 就 在 企业 中 得 到 应 用 。 

人 然而， 一 些 没有 预料 到 的 事情 在 这 个 过 程 中 发 生 了 。 当 终端 用 户 可 以 自由 地 访问 数据 
时 ， 他 们 发 现 ， 除 了 需要 访问 这 些 数据 外 ， 想 要 做 出 好 的 决策 还 有 更 多 事 要 做 。 终 端 用 
户 还 发 现 ， 即 使 数据 可 以 被 访问 ， 也 会 存在 下 列 问题 : 

。 如 来 数据 是 不 准确 的 ， 则 没有 比 这 更 糟糕 的 事情 了 ， 肉 为 不 准确 的 数据 会 有 很 大 

的 误导 性 。 

。 不 完整 的 数据 的 用 处 并 不 是 很 大 。 

。 不 及 时 的 数据 不 太 符合 人 们 的 需要 。 

。 当 同 一 数据 出 现 多 个 版 本 时 ,依赖 于 其 错误 的 值 会 导致 糟糕 的 决定 。 

。 没有 文档 的 数据 的 价值 值得 怀疑 。 

也 只 有 在 终端 用 户 可 以 访问 数据 后 ， 他 们 才能 发 现 数据 的 所 有 潜在 问题 。 


1.4 蜂 蛛 网 环境 
通常 的 结果 就 是 一 个 非常 大 的 混乱 ， 这 种 混乱 有 时 候 可 以 形象 地 称 为 “ 蜂 蛛 网 ” 环 
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境 。 之 所 以 称 为 蜂 蛛 网 环境 ,是 因为 有 如 此 多 的 线路 通 向 如 此 多 的 地 方 ， 这 让 我 们 想到 


了 蜂 蛛 网 。 
图 1-2 描述 了 在 一 个 典型 的 企业 IT 环境 中 蜘蛛 网 环境 的 演变 。 





被 个 人 电脑 和 4CL 
技术 所 包围 的 应 用 


蜘蛛 网 环境 
图 1-2 在 一 个 典型 的 企业 IT 环境 中 蜂 蛛 网 环境 的 演变 


在 许多 企业 环境 中 ， 蜘 蛛网 环境 已 经 发 展 到 了 不 可 想象 的 复杂 程度 。 为 了 证 实 它 的 复 
杂 度 ， 思 考 一 下 如 图 1-3 所 示 的 一 个 企业 蜘蛛 网 环境 的 真实 图 表 。 





ms 4 时 - 帮 - 刻 一 Fi se [i 
-> | i pee es, 


图 1-3 一 个 真实 的 蜂 蛛 网 环境 


我 们 看 着 这 个 图 就 觉得 铠 惧 ， 想 一 想 那 些 必须 要 处 理 如 此 的 环境 并 试图 用 它 来 做 一 个 
好 的 企业 级 决定 的 可 怜 的 人 吧 。 令 信 惊 奉 的 是 ， 任 何人 都 可 以 把 任何 事 做 完 ， 不 过 仿 少 
人 能 做 出 好 的 、 及 时 的 决定 。 

事实 上 ， 在 目前 系统 构架 备 受 关注 的 情况 下 ， 蜂 蛛网 环境 对 企业 来 说 是 一 个 死胡同 ， 
想 要 使 蜘蛛 网 环境 工作 是 没有 希望 的 事情 。 

终端 用 户 、 开 专业 人 员 和 管理 人 员 的 诅 丧 导致 了 另 一 一 种 不 同 的 信息 系统 构架 的 发 展 ， 
这 吏 是 以 数据 仓库 为 中 心 的 构架 。 


1.5 企业 角度 的 演化 
上 述 过 程 是 从 技术 角度 出 发 描述 的 ， 还 有 一 个 不 同 的 角度 一 一 企业 角度 。 从 一 个 企业 


省， 


人 员 的 角度 出 发 ， 计 算 机 的 发 展开 始 于 重复 性 工作 的 简单 自动 化 。 与 人 相 比 ， 计 算 机 能 
够 以 更 快 的 速度 、 更 高 的 准确 率 来 处 理 更 多 的 数据 。 例 如 ， 工 资 单 的 产生 、 发 票 的 生成 、 
正在 生成 的 支付 过 程 等 工作 都 是 计算 机 最 初 进 入 企业 生活 的 典型 应 用 。 

不 久 后 ， 人 们 发 现 计算 机 还 可 以 用 于 记录 大 量 的 数据 ， 这 样 就 产生 了 “ 主 文件 ”。 主 
文件 记录 了 库存 、 应 付款 项 、 应 收 款项 、 发 货 清单 等 。 不 久 后 又 产生 了 联机 数据 库 ， 利 
用 联机 数据 库 计 算 机 开始 进入 商业 活动 的 核心 。 有 了 联机 数据 库 ， 航 空 公司 的 职员 得 以 
解放 ; 有 了 联机 处 理 ， 银 行 出 纳 员 可 以 担任 一 些 全 新 的 职能 ， 有 了 联机 处 理 ， 保 险 理赔 
处 理 比 以 往 任何 时 候 都 快 。 

正 是 联机 处 理 使 得 计算 机 进入 了 企业 网 络 。 换 名 话说 ， 一 旦 联机 系统 被 企业 人 员 所 应 
用 ， 那么 如 果 它 发 生 故 障 ， 整 个 业务 就 要 受 损 并 且 是 立即 受 损 。 银 行 出 纳 员 不 能 做 他 的 
工作 ，ATM 不 能 使 用 ， 航 空 订 票 也 会 进入 人 工 操作 的 模式 等 。 

当前 ， 还 存在 另 一 个 由 于 计算 机 进入 商业 网 络 而 产生 的 影响 ， 这 个 影响 关系 着 商业 的 
管理 、 战 略 以 及 决策 等 方面 ， 即 当前 企业 决策 的 形成 是 基于 在 企业 的 动静 脉 等 各 种 网 络 
系统 上 的 数据 的 。 ’ 

因此 ， 正 在 描述 的 发 展 过程 很 难说 是 一 个 以 技术 为 中 心 的 过 程 ， 它 还 伴随 着 一 些 来 自 
企业 的 影响 和 牵连 等 。 


1.6 数据 仓库 环境 
图 1-4 给 出 了 企业 从 蜘蛛 网 环境 到 数据 仓库 环境 的 转变 。 
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图 1-4 从 蜘蛛 网 环境 到 数据 仓库 环境 的 转变 


数据 仓库 代表 了 IT 专业 人 员 思 维 的 重大 变化 。 在 数据 仓库 出 现 之 前 ， 人 们 认为 数据 
库 应 该 是 一 种 能 够 满足 所 有 数据 需求 的 东西 。 但 是 随 着 数据 仓库 的 出 现 ， 对 多 种 不 同 种 
类 数据 库 的 需求 变 得 明朗 起 来 。 


1.7 什么 是 数据 仓库 


数据 仓库 是 信息 处 理 的 一 个 基础 。 它 被 定义 为 : 
。 面 问 对 象 的 。 


。 整合 的 。 

e 永久 的 。 

。 随时 间 变 化 的 。 

。 一 个 文 持 管理 决策 的 数据 的 集合 。 

这 个 关于 数据 仓库 的 定义 从 一 开始 就 被 人 们 所 接受 。 

数据 仓库 包含 了 整合 后 的 粒状 历史 数据 。 如 果 还 有 关于 数据 仓库 的 奥秘 ， 那 就 是 它 包 
含 的 数据 既是 整合 的 又 是 粒状 的 。 数 据 的 整合 使 得 企业 对 数据 有 一 个 真正 的 企业 范围 级 
的 观察 。 这 样 ， 如 果 数 据 是 从 单一 的 定义 良好 的 数据 源 得 到 的 ， 那 么 就 可 以 从 整体 而 不 
是 局 部 地 观察 数据 来 进行 数据 分 析 ， 显 然 绝 大 多 数 数据 仓库 不 满足 这 一 点 。 因 此 ， 使 用 
数据 仓库 数据 来 观察 整个 企业 的 能 力 是 数据 仓库 的 首要 优势 。 另 外 ， 数 据 的 粒度 一 一 细 分 
的 第 一 层 一 一 使 得 数据 十 分 灵活 。 由 于 数据 是 粒状 的 ， 它 就 可 以 被 一 组 人 员 以 一 种 方式 考 
察 ， 而 蔽 另外 一 组 人 员 以 另外 一 种 方式 考察 。 粒 状 数据 意味 着 这 仍旧 是 一 组 数据 一 一 关于 
真实 状况 的 单一 版 本 。 财 务 人 员 可 以 以 一 种 方式 观察 数据 ， 市 场 人 员 可 以 以 另 一 种 方式 
观察 同样 的 数据 ， 会 计 人 员 还 可 以 再 用 一 种 方式 观察 。 如 果 得 出 了 不 同 的 结论 ， 还 可 以 
返回 那个 天 于 真实 状况 的 单一 版 本 来 解决 这 些 不 一 致 。 

数据 仓库 的 男 一 个 优点 是 它 是 一 个 历史 数据 的 集合 。 数 据 仓 库 是 存放 有 价值 的 数 年 前 
的 数据 的 好 地 方 。 

正 是 由 于 这 些 和 更 多 的 原因 ， 数 据 仓库 的 概念 才 从 一 个 被 当时 数据 库 理论 家 嘲笑 的 对 
象 成 长 为 今天 企业 中 的 传统 观点 。 

然而 ， 尽 管 数据 仓库 有 着 种 种 优势 ， 但 它 也 并 非 没 有 带 来 一 定 程度 的 痛苦 。 


1.8 整合 数据 一 一 一 个 痛苦 的 经 历 


企业 所 感受 到 的 第 一 个 (也 是 最 紧迫 的 ) 痛苦 就 是 整合 数据 的 需要 。 如 果 要 建立 一 
个 数据 仓库 ， 就 必须 整合 数据 。 可 问题 是 许多 公司 都 有 许多 遗留 系统 ， 各 种 各 样 的 目的 
和 意图 使 得 难以 处 理 它 们 。 人 们 实在 不 情愿 对 他 们 的 旧 遗 留 系 统 做 任何 改变 ， 但 是 建立 
一 个 数据 仓库 又 要 求 他 们 不 得 不 这 么 做 。 

因此 ， 建 立 数据 仓库 的 第 一 个 障碍 就 是 “和 弄 脏 你 的 手 ”， 即 返回 那些 旧 的 遗留 系统 ， 
看 看 你 都 有 哪些 数据 ， 人 然后 弄 明 白 如 何 将 这 些 面 向 应 用 的 数据 转化 成 企业 数据 。 

这 种 转化 绝 非 容 易 ， 并 且 在 某 些 情况 下 几乎 不 可 能 。 但 是 整合 数据 带 来 的 价值 值得 我 
们 去 承受 转化 未 整合 、 面 向 应 用 的 数据 过 程 中 的 痛苦 。 


1.9 数据 的 量 


数据 仓库 所 面临 的 第 二 个 痛苦 是 处 理 数 据 仓库 产生 的 大 量 的 数据 。 大 多 数 区 专业 人 
员 以 前 从 来 没有 处 理 过 伴随 数据 仓库 产生 的 如 此 大 量 的 数据 。 在 应 用 系统 环境 下 ， 尽 里 
地 丢弃 较 老 的 数据 是 个 好 的 实践 方法 。 在 操作 型 应 用 环境 下 并 不 需要 旧 的 数据 ， 因 为 它 
会 使 系统 慢 下 来 。 旧 的 数据 阻塞 了 数据 流通 的 要 道 。 因 此 ， 任何 一 个 好 的 系统 程序 员 会 
告诉 你 如 果 想 要 使 系统 变 得 高 效 ， 就 必须 丢弃 旧 的 数据 。 

然 面 ， 在 旧 的 数据 中 仍然 存在 巨大 的 价值 。 对 许多 分 析 来 说 ， 旧 数据 是 极其 有 用 的 ， 
有 时 甚至 是 不 可 或 缺 的 。 因 此 ， 有 一 个 合适 的 地 方 (例如 数据 仓库 ) 来 存储 旧 数 据 对 于 


数据 分 析 而 言 太 有 用 了 。 
1. 10 ”一 种 不 同 的 开发 方法 


数据 仓库 所 面临 的 第 三 个 痛苦 是 构建 数据 仓库 的 方法 ， 这 并 不 是 能 轻易 完成 的 。 全 世 
界 的 开发 者 习惯 于 先 收集 需求 然后 构建 一 个 系统 。 这 种 历史 悠久 的 方法 已 经 在 开发 者 构 
建 运行 系统 的 时 候 被 反复 地 灌输 到 他 们 的 头脑 当中 了 。 但 是 数据 仓库 的 构建 却 非常 不 同 ， 
它 是 迭代 地 被 构建 的 ， 每 次 前 进一步 ， 先 构建 一 部 分 然后 再 构建 男 一 部 分 ， 如 此 等 等 。 
几乎 在 每 次 开发 实例 中 ， 这 种 方法 都 作为 一 种 策略 来 应 对 那些 试图 使 用 “激进 ”的 方法 
一 次 构建 好 整个 数据 仓库 所 带 来 的 灾难 。 

关于 构建 数据 仓库 不 应 该 使 用 激进 方法 有 许多 原因 。 第 一 个 原因 就 是 数据 仓库 项 目 一 
般 都 比较 大 。 有 一 名 古话 说 得 好 : “你 怎样 才能 吃 掉 一 只 大 象 ” 如 果 尝 试 一 口气 吃 掉 ， 那 
你 就 会 被 嘻 住 。 相 反 ， 吃 大 象 的 方法 应 该 是 每 次 吃 一 点 。” 当 我 们 构建 数据 仓库 的 时 候 ， 
这 个 逻辑 是 再 正确 不 过 的 了 。 

关于 构建 数据 仓库 应 每 次 构造 一 部 分 还 有 一 个 好 的 原因 。 这 个 原因 就 是 最 初 构建 数据 
仓库 的 时 候 ， 对 于 它 的 需求 并 不 总 是 明确 的 。 这 也 是 因为 数据 仓库 的 终端 用 户 并 不 确切 
地 知道 他 们 想 要 什么 。 终 端 用 户 以 一 种 探索 的 模式 进行 操作 。 他 们 怀 着 这 样 的 态度 一 一 
“只 有 当 我 看 见 可 能 发 生 的 事情 时 ， 我 才能 告诉 你 我 真正 想 要 的 是 什么 。” 而 正 是 构建 数 
据 仓 库 的 第 一 次 迭代 活动 开阔 了 终端 用 户 的 思路 ， 引 导 用 户 去 考虑 可 能 发 生 的 事情 会 是 
”什么 。 也 只 有 在 看 见 数 据 仓 库 后 ， 用 户 对 它 的 需求 才能 变 得 明确 。 

问题 是 : 传统 的 系统 开发 者 之 前 从 未 以 这 种 方式 构建 这 样 一 个 系统 。 而 当 开发 者 仅仅 
把 它 当 作 是 另 一 个 操作 型 应 用 系统 来 开发 时 ， 会 带 来 数据 仓库 构建 过 程 中 最 大 的 失败 。 


1. 11 演变 到 DW2. 0 环境 


本 章 已 经 描述 了 一 个 从 最 早 的 系统 发 展 到 DW2. 0 环境 的 演变 过 程 。 从 构架 演变 的 角 
度 出 发 ， 回 顾 并 考察 使 得 这 一 演变 过 程 成 形 的 推动 因素 是 非常 有 趣 的 。 事 实 上 ， 有 许多 
因素 推动 了 这 一 信息 构架 演变 的 形成 ， 并 达到 其 最 高 点 一 一 DW2. 0。 

其 中 一 些 演 变 过 程 的 推动 因素 为 : 

。 对 于 更 多 不 同 技术 的 使 用 需求 : 当 比 较 一 个 最 初 的 系统 和 DW2.0 的 系统 时 ， 可 以 

发 现 DW2. 0 在 系统 及 其 与 终端 用 户 的 交互 方面 已 经 有 了 显著 提升 。 而 在 不 久之 前 
计算 机 系统 以 穿孔 卡片 的 形式 输出 的 时 候 ， 这 几乎 是 不 可 想象 的 事情 。 终 端 用 户 
的 输出 作为 一 个 微小 的 信息 点 被 掩埋 在 十 六 进 制 堆 中 。 事 实 上 ， 只 要 输出 还 是 以 
这 种 非常 原始 的 形式 出 现 ， 计 算 机 就 不 算是 很 有 效 的 。 

。 联机 处 理 : 只 要 对 数据 的 访问 被 限制 在 一 段 非常 短 的 时 间 ， 商 业 人 士 就 可 以 利用 
电脑 来 做 很 多 事情 。 人 得 是 联机 处 理 一 旦 成 为 可 能 ， 商 业 活 动 就 会 使 交互 使 用 日 常 
商业 活动 中 的 信息 成 为 可 能 。 有 了 联机 处 理 ， 预 定 系统 、 银 行 出 纳 处 理 、ATM 处 
理 、 联 机 目录 管理 以 及 其 他 一 大 堆 的 关于 计算 机 的 重要 应 用 就 会 成 为 现实 。 

。 对 于 整合 的 企业 数据 的 渴望 : 在 仍 存在 大 量 应 用 的 时 候 ， 这 种 来 自 办 公 室 的 渴望 
锌 扑灭 了 。 但 是 不 和 久 以 后 ， 人 们 就 发 现 有 一 些 重要 的 东西 被 遗漏 了 ， 而 被 遗漏 的 
正 是 企业 信息 。 企 业 信 息 无 法 通过 将 若干 微小 的 应 用 加 在 一 起 而 获得 ， 相 反 数 据 
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必须 被 改造 为 整合 的 能 为 企业 所 理解 的 信息 。 但 是 一 旦 企业 数据 成 为 现实 ， 对 于 
处 理 的 所 有 新 的 看 法 将 被 开启 。 
对 于 混合 地 包含 非 结构 化 的 文本 数据 的 需要 : 多 年 以 来 ,决策 都 是 仅仅 在 结构 化 
的 记录 数据 这 一 基础 上 做 出 的 。 虽 然 结构 化 的 记录 信息 确实 非常 重要 ， 但 在 企业 
环境 中 仍然 存在 其 他 的 信息 形式 。 有 大 量 的 信息 以 文本 的 、 非 结构 化 的 形式 存在 。 
不 幸 的 是 ， 抽 取出 这 些 文本 的 信息 并 不 是 容易 的 。 但 幸运 的 是 ,文本 ETL (抽取 / 
转换 /装载 ) 出 现 了 ， 并 为 各 种 组 织 提供 了 获取 作为 制定 决策 基础 的 文本 信息 的 关 
键 方法 。 
。 容量 : 如 果 技 术 世 界 停止 了 创新 ， 一 个 像 DW2. 0 这 样 复杂 的 世界 就 完全 不 可 能 出 
现 了 。 但 是 技术 的 容量 、 技 术 工 作 的 速度 ， 以 及 使 不 同形 式 的 技术 可 以 互相 联系 
起 来 的 能 力 合 起 来 创造 了 一 个 这 样 的 技术 氛围 ， 其 中 容量 是 一 个 常见 的 制约 。 可 
以 想象 这 样 一 个 世界 : 所 有 的 存储 全 部 保存 在 磁带 上 (就 像 不 久 前 一 样 )， 那 么 ， 
绝 大 多 数 现在 被 认为 是 理 所 应 当 的 处 理 类 型 完全 是 不 可 能 产生 的 。 
经 济 效应 : 除了 容量 的 增长 ， 技 术 的 经 济 效应 对 客户 也 是 非常 有 利 的 。 如 果 顾 客 
还 必须 像 十 年 前 那样 为 技术 埋单 ， 那 么 从 金融 学 的 角度 看 ，DW2.0 的 数据 仓库 就 
完全 地 偏离 了 轨道 。 多 亏 了 摩尔 定律 ， 很 多 年 来 技术 的 单位 成 本 已 经 缩减 了 ， 最 
终 达 到 客户 层 的 可 支付 能 力 。 

这 些 就 是 过 去 几 十 年 来 技术 世界 的 一 些 进化 推动 因素 ， 并 且 这 些 推动 因素 促进 了 构架 
的 演变 ， 其 集中 体现 就 是 DW2. 0。 


1. 12 数据 仓库 的 商业 影响 


数据 仓库 对 于 商业 的 影响 是 非常 大 的 。 一 些 直接 受到 数据 仓库 出 现 的 影响 的 领域 
包括 : 
。 航空 业 的 常 旅客 计划 : 常 旅客 计划 拥有 的 最 有 价值 的 一 项 技术 就 是 它们 的 中 心 数 
据 仓 库 。 

。 信用 卡 欺诈 分 析 : 每 一 个 客户 都 在 其 过 去 的 消费 行为 基础 上 产生 一 些 消 费 记 录 。 
这 些 记 录 是 从 数据 仓库 中 生成 的 。 当 一 个 客户 试图 进行 一 个 超过 其 记录 范围 的 购 
天时 ,信用 卡 公司 就 会 检查 是 否 将 要 发 生 信用 卡 的 欺诈 性 使 用 。 

。 许 细 目 录 管 理 : 数据 仓库 保存 了 详尽 的 存货 记录 、 注 意 趋势 及 机 会 机 遇 。 通 过 理 
解 一 一 在 一 定 的 细节 层次 上 一 一 一 个 组 织 所 管理 的 货物 的 消费 模式 ， 公 司 可 以 同 
时 了 解 供 给 过 剩 和 供给 不 足 的 情况 。 
客户 记录 : 那些 想 要 “更 好 地 了 解 他 们 的 客户 ”的 组 织 跟踪 保留 了 他 们 的 客户 所 
展示 的 购买 模式 和 注意 力 模式 。 这 些 详细 的 信息 都 被 存储 在 数据 仓库 中 。 

数据 仓库 还 通过 许多 其 他 的 途径 影响 商业 活动 。 简 而 言 之 ， 数 据 仓库 成 为 了 企业 的 存 
储 融 。 没 有 数据 仓库 时 ， 至 多 也 就 是 有 一 个 短期 的 企业 存储 器 ,而 有 了 数据 仓库 就 等 于 
有 了 一 个 长 期 的 、 详 细 的 企业 存储 器 ， 并 且 可 对 该 存储 器 以 不 同 的 方式 加 以 利用 。 


1. 13 数据 仓库 环境 的 各 种 组 件 
数据 仓库 环境 中 有 着 各 种 组 件 。 起 初 ， 这 些 组 件 并 没有 被 广泛 认可 。 但 是 不 久 以 后 这 
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些 数据 仓库 的 基本 组 件 就 被 熟知 了 。 
图 1-5 展示 了 从 一 个 早期 的 独立 的 数据 仓库 到 一 个 完整 的 数据 仓库 构 染 的 发 展 过 程 。 





图 1-5 数据 仓库 很 快 就 演变 为 一 个 被 称 为 企业 信息 工厂 的 成 熟 构架 


在 图 1-5 中 给 出 的 完整 的 构架 包含 了 一 些 常见 的 组 件 ， 这 些 组 件 将 在 以 后 的 章节 中 


讨论 。 
1. 13. 1 ETL 一 一 抽取 /转换 /装载 


ETL 技术 使 得 数据 可 以 从 遗留 系统 环境 中 获得 并 被 转换 成 企业 数据 。ETL 的 组 件 执行 
许多 功能 ， 例 如 : 

。 数据 的 逻辑 转换 。 

。 域 的 验证 。 

e。 从 一 个 DBMS 到 男 一 个 的 转换 。 

。 当 需 要 时 ， 默 认 值 的 生成 。 

。 数据 的 总 结 。 

。 对 效 据 键 添 加 时 间 值 。 

。 重 构 数 据 键 。 

。 记录 的 合并 。 

。 额外 或 元 余数 据 的 删除 。 

ETL 的 本 质 是 使 数据 进入 ETL 迷 富 时 是 应 用 数据 ， 而 出 来 时 则 变 成 了 企业 数据 。 


1. 13. 2 ODS 一 一 操作 数据 存储 


ODS 是 在 联机 交易 处 理 〈OLIP) 响应 时 间 内 完成 整合 数据 的 联机 升级 的 地 方 。0ODS 
是 一 个 复杂 的 环境 ， 在 其 中 应 用 数据 被 转换 (通常 使 用 ETL) 成 整合 的 形式 。 一 旦 被 放 
进 0DS， 数 据 就 可 以 得 到 高 性 能 的 处 理 ， 包 括 升级 处 理 。 在 一 定 程度 上 ,ODS 使 传统 的 
数据 仓库 避 开 了 应 用 数据 以 及 在 实时 模式 的 升级 过 程 中 事务 完整 性 和 数据 完整 处 理 的 总 
开销 。 


1. 13.3 数据 集 市 
数据 集 市 是 终端 用 户 可 以 直接 访问 和 控制 所 分 析 数 据 的 地 方 。 数 据 集 市 是 根据 一 组 部 


门 用 户 对 数据 应 该 以 何 种 方式 被 看 到 的 一 般 期 望 形 成 的 。 财 务 部 有 它 目 己 的 数据 集 市 ， 
市 场 部 有 一 个 数据 集 市 ， 销 售 部 也 有 一 个 数据 集 市 ， 等 等 。 每 一 个 数据 集 市 的 数据 来 源 
都 是 数据 仓库 。 数 据 集 市 通常 是 用 不 同 的 技术 而 不 是 不 同 的 数据 仓库 来 实现 的 。 每 一 个 
数据 集 市 包含 的 数据 通常 比 数据 仓库 少 得 多 ， 它 通常 也 包含 大 量 的 汇总 数据 以 及 聚合 
数据 。 


1.13.4 探索 仓库 


探索 仓库 问 想 要 对 数据 进行 发 据 处 理 的 终端 用 户 提供 了 相应 的 功能 设备 。 许 多 统计 分 
析 就 是 在 探索 仓库 中 完成 的 。 许 多 在 探索 仓库 中 进行 的 处 理 都 属于 不 同类 型 的 启发 探索 。 
大 多 数 探索 仓库 都 是 基于 一 个 项 目 保 存 数据 ， 一 旦 项 目 完 成 了 ， 探 索 仓 库 也 就 可 以 不 用 
本 。 探 索 仓 库 承 担 了 重要 的 统计 分 析 的 处 理 要 求 ， 这 样 就 使 传统 的 数据 仓库 避 开 了 由 于 
使 用 探索 仓库 做 非常 繁重 的 统计 而 引起 的 性 能 缺失 。 

这 种 构架 已 经 被 通称 为 企业 信息 工厂 。 

这 样 ， 简 单 的 数据 仓库 的 概念 已 经 从 一 个 用 于 存放 整合 的 、 粒 状 的 、 历 史 的 数据 的 地 
方 演变 成 为 一 个 完整 成 熟 的 构架 。 


1. 14 数据 仓库 的 演变 一 一 从 企业 的 角度 


在 计算 的 最 初期 终端 用 户 以 一 种 非常 原始 的 方式 从 计算 机 得 到 输出 。 在 那个 时 候 ， 
终端 用 户 要 读 打 在 卡片 上 的 孔 ， 并且 要 读 用 数 千 页 隐 星 的 代码 才能 保存 一 点 信息 的 十 六 
进 制 堆 。 不 久 后 报表 变 得 规范 ， 因 为 最 早期 的 对 终端 用 户 的 接口 形式 确实 是 太原 始 了 。 

不 久 后 ， 终 端 用 户 变 得 复杂 起 来 。 终 端 用 户 得 到 的 能 力 越 大 ， 他 们 能 够 想象 到 的 能 力 
也 就 越 大 。 在 报表 出 现 后 ， 联 机 信息 也 几乎 同时 出 现 并 可 用 了 。 

并 且 ， 在 联机 交易 处 理 后 ,终端 用 户 又 想 要 整合 的 企业 数据 ， 通 过 它 可 以 将 大 量 的 数 
据 整合 成 一 个 聚合 的 整体 。 之 后 ， 终 端 用 户 又 想 要 历史 数据 。 

在 此 过 程 中 也 同时 贯穿 着 构架 和 技术 的 演变 。 而 正 是 通过 第 一 代数 据 仓库 ,终端 用 户 
才 到 达 了 分 析 能 力 的 终极 。 

换 一 种 说 法 ， 如 果 没 有 第 一 代数 据 仓库 ， 终 端 用 户 对 信息 仅 会 有 局 部 的 、 不 完整 的 需 
求 。 终 端 用 户 对 企业 信息 的 渴望 是 第 一 代数 据 仓库 发 展 背 后 的 最 大 推动 力 。 


1. 15 ”关于 数据 仓库 的 其 他 观念 


人 然而， 还 存在 着 其 他 的 力量 在 改变 着 关于 数据 仓库 是 什么 的 观念 。 一 些 计算 机 经 销 商 
已 经 认识 到 数据 仓库 是 个 非常 吸引 人 的 东西 ， 所 以 他 们 “更 改 ” 了 数据 仓库 的 概念 以 满 
足 其 需要 ， 即 使 他 们 从 来 不 用 数据 仓库 做 那些 在 广告 中 宣称 的 事情 。 

一 些 经 销 商 和 咨询 师 更 改 数据 仓库 的 方式 如 图 1-6 所 示 。 

图 1-6 展示 了 现今 数据 仓库 的 一 些 变 体 ， 特 别 是 : 

“主动 ”数据 仓库 。 

。 “联合 ”数据 仓库 。 

。“ 星 状 ” 数 据 仓 库 〈 有 着 规范 的 维度 ) 。 

。 “数据 集 市 ”数据 仓库 。 


“| “ 星 状 ”数据 仓库 






“数据 集 市 ”数据 仓库 


图 1-6 不 同 的 数据 仓库 很 快 就 开始 出 现 


里 然 这 些 更 改过 的 数据 仓库 概念 的 每 一 个 都 和 真正 的 数据 仓库 有 一 一 些 相 似 ， 但 在 数据 
仓库 和 它 的 这 些 变 体 间 仍 存 在 一 些 较 大 的 区 别 ， 并 且 每 种 更 改 后 的 变 体 都 有 一 些 较 大 的 
缺陷 。 


1. 16 主动 数据 仓库 


主动 数据 仓库 是 指 在 其 中 可 以 完成 联机 处 理 和 升级 。 高 性 能 的 事务 处 理 是 主动 数据 仓 
库 的 一 个 特征 。 

主动 数据 仓库 的 一 些 缺 陷 包 括 : 

。 维护 数据 和 事务 的 完整 性 的 困难 ， 当 一 一 个 事务 没有 被 正确 地 执行 而 需要 放弃 时 ， 

在 需要 找 出 或 毁坏 或 修正 的 数据 时 会 遇 到 问题 。 尽 管 这 些 事 都 能 完成 ， 但 通常 非 
党 复杂 并 需要 相当 多 的 资源 。 

。 容量 : 为 了 保证 良好 的 联机 响应 时 间 ， 必 须 有 足够 的 容量 来 确保 在 高 峰 时 期 处 理 
时 间 有 是 够 可 用 的 资源 。 虽 然 这 点 肯定 能 满足 ， 但 结果 通常 是 有 大 块 的 容量 在 长 
时 间 内 没有 被 利用 ， 导 致 操作 成 本 非常 高 。 

筑 计 处 理 : 繁重 的 统计 处 理 与 标准 的 数据 仓库 处 理 的 系统 资源 利用 之 间 的 冲突 总 

古 一 个 问题 。 不 幸 的 是 ， 主 动 数据 仓库 的 销售 商 却 宣称 他 们 采用 的 技术 能 够 解决 

这 个 问题 。 

。 成 本 : 主动 数据 仓库 环境 是 昂贵 的 ， 这 有 无 数 的 理 
由 一 一 从 等 待 高 峰 时 期 处 理 的 未 使 用 的 容量 到 所 有 的 





| 有 是 


细节 数据 都 必须 存储 在 一 个 数据 仓库 的 观念 ， 甚 至 。 -数据 与 事务 的 完 间 性 
对 那些 数据 的 访问 的 可 能 性 早已 减 小 等 。 过 过 从 于 的 着 


图 1-7 给 出 了 主动 数据 仓库 方法 的 一 些 缺 点 。 
1. 17 联合 数据 仓库 方法 


在 联合 数据 仓库 方法 中 根本 没有 数据 仓库 ， 因 为 企业 都 殿 怕 整合 数据 的 工作 。 这 种 方 
法 就 是 把 那些 老 的 遗留 数据 库 粘 合 在 一 起 虚拟 地 建立 一 一 个 数据 仓库 ， 这 些 数据 库 的 数据 


图 1-7 主动 数据 仓库 


数 据 众 庚 入 史 及 荔 一 代 妆 据 众 庆 11 


可 以 同时 被 访问 。 

联合 数据 仓库 方法 是 非常 吸引 人 的 ， 因 为 看 起 来 它 给 了 企业 避免 数据 整合 的 选择 。 不 
管 在 什么 地 点 什么 时 候 ， 要 完成 旧 的 遗留 系统 的 整合 都 是 一 项 巨大 且 复 杂 的 任务 。 除 非 
你 使 用 这 种 联合 的 方法 ， 否 则 就 不 得 不 整合 旧 的 数据 。 

但 不 笠 的 是 ， 这 种 联合 式 方 法 更 像 是 一 种 假象 而 不 是 一 种 解决 方案 。 这 种 方法 有 许多 
根本 性 的 问题 ， 如 下 所 示 ， 但 还 不 止 这 些 : 


低劣 的 性 能 : 关于 联合 的 数据 能 导致 低劣 的 性 能 有 许多 原因 。 如 果 一 个 需要 加 入 
到 联合 式 数据 仓库 的 数据 库 出 现 故障 或 正在 重组 该 怎么 办 ?如 果 联 合 数据 仓库 需 
要 的 数据 库 正在 参与 OLTP 该 怎么 办 ? 是 否 有 足够 的 机 器 周期 来 同时 满足 OLTP 和 
数据 库 联合 的 需要 ?如 果 相同 的 查询 语句 被 执行 两 次 ,或 者 如 果 不 同 的 查询 需要 
相同 的 数据 该 怎么 办 ? 每 次 当 需 要 的 时 候 ， 它 都 要 访问 并 联合 ， 这 对 于 资源 的 使 
用 来 说 是 一 种 浪费 的 方法 。 以 上 还 仅仅 是 性 能 为 何 成 为 联合 环境 的 一 个 问题 的 音 
分 例证 。 

缺乏 数据 整合 ;这 种 联合 式 方法 下 根本 没有 数据 的 整合 。 如 果 正 在 被 联合 的 数据 
已 经 经 过 整合 了 ， 那 好 极 了 ; 但 这 种 情况 很 少 出 现 。 联 合式 方法 对 数据 整合 一 无 
所 知 。 如 果 一 个 文件 中 有 美元 ， 另 一 个 文件 中 有 加 元 ， 第 三 个 文件 中 有 澳元 (这 
三 种 货币 使 用 相同 的 符号 $ 一 一 译 者 注 ) ， 那 么 在 联合 的 过 程 中 ， 这 三 种 货币 就 会 
被 加 在 一 起 。 数 据 整合 的 基本 问题 是 联合 式 方法 中 一 个 现实 而 严重 的 问题 。 

复杂 的 技术 方法 : 即使 实现 了 联合 ， 也 需要 一 个 复杂 的 技术 方法 。 例 如 ， 联 合 需 
要 利用 多 个 厂商 的 DBMS 技术 才能 够 完成 。 假 如 不 同 的 数据 库 厂 商 不 愿意 互相 合 
作 ， 那 么 ， 既 要 基于 这 些 不 同 的 数据 库 又 要 整合 它们 就 成 了 一 个 有 问题 而 不 可 千 
的 技术 ， 这 种 情况 不 足 为 奇 。 

有 限 的 历史 数据 : 对 于 联合 的 数据 库 来 说 ， 仅 有 的 可 用 历史 数据 就 是 那些 已 经 存 
在 于 联合 数据 仓库 中 的 数据 。 几 乎 所 有 情况 下 ， 这 些 数据 库 都 会 为 了 追求 性 能 而 
尽 可 能 快 地 丢掉 历史 数据 。 因 此 ， 通 常 仅 有 一 小 部 分 历史 数据 能 够 进入 联合 数据 
仓库 中 。 

不 可 重复 的 查询 : 在 这 种 联合 式 的 环境 中 ， 查 询 不 具有 可 重复 性 。 假 设 在 上 午 10 
点 的 时 候 提 交 了 一 个 对 数据 库 ABC 的 查询 并 且 返 回 一 个 值 $156. 09。 接 着 ,在 上 
午 10 点 半 的 时 候 ， 一 个 客户 进来 向 其 账户 中 添加 了 一 笔 工资 储蓄 ， 将 账户 的 值 改 
成 了 $2 971. 98 。 在 上 午 10 点 45 分 的 时 候 再 重复 上 次 的 联合 查询 。 在 不 到 一 个 小 
时 之 内 ， 对 相同 的 查询 将 会 返回 一 个 不 同 的 值 。 

继承 的 数据 粒度 : 联合 数据 仓库 的 用 户 受 困 于 诸如 在 支 
持 联合 查询 的 应 用 中 找到 的 粒度 。 只 要 粒度 已 经 存在 于 
支持 联合 查询 的 数据 库 中 ， 那 它 就 是 客户 想 要 的 ， 这 没 ns 











有 问题 。 然 而 当 客 户 想 要 另 一 个 不 同 层次 的 数据 粒 ep 
度 或 者 高 也 或 者 低 的 时 候 就 会 出 现 一 个 严重 的 _ 查 询 的 不 可 重复 性 
基本 问题 。 -不 适当 的 数据 粒度 
1-8 总 结 了 关于 数据 仓库 联合 方法 中 存在 的 基本 问题 。 图 1-8 联合 数据 仓库 
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1. 18 星 状 模式 方法 


” ”数据 仓库 的 星 状 模式 方法 要 求 建 立 事实 表 和 维度 表 。 使 用 星 状 模式 方法 能 实现 实际 的 
数据 仓库 的 许多 优点 。 然 而 ， 这 种 方法 也 存在 一 些 基 本 的 问题 ， 包 括 : 

。 脆弱 性 : 由 一 些 星 状 模式 的 集合 组 成 的 数据 仓库 有 些 “ 脆 弱 ”。 只 要 需求 都 精确 地 
在 同一 时 刻 开始 ， 那 就 没有 问题 。 但 是 一 旦 需求 发 生变 化 (久而久之 这 种 变化 是 
肯定 会 发 生 的 )， 那 么 ,要么 对 现 有 的 星 状 模式 做 大 块 的 改动 ， 要 么 就 丢弃 掉 它 并 
用 新 的 来 取而代之 。 事 实 是 ， 星 状 模式 是 针对 且 仅 针对 一 组 给 定 的 需求 来 设计 的 。 
有 限 的 可 扩展 性 : 相似 地 ， 星 状 模 式 是 很 难 扩展 的 。 它 们 一 开始 是 在 需求 的 基础 
上 设计 的 ， 并 被 这 些 需 求 极 大 地 限制 着 。 
一 类 用 户 : 星 状 模式 为 了 某 一 类 用 户 的 使 用 而 进行 优化 。 通 常 ， 仅 有 一 组 用 户 感 
到 所 给 定 的 星 状 模式 是 最 优 的， 而 其 他 的 用 户 都 感觉 它 不 是 最 优 的。 一 个 数据 仓 
库 的 本 质 任务 是 使 大 量 的 不 同 用 户 满意 。 如 果 存 在 这 样 的 情况 ， 即 有 的 用 户 对 服 
务 方式 并 不 太 满意 ， 那 么 这 样 的 数据 仓库 就 不 是 最 优 的 。 而 建立 一 个 单一 的 星 状 
模式 来 为 所 有 用 户 服务 恰恰 就 会 造成 这 种 情况 。 
星 状 模式 的 增殖 : 由 于 一 个 单一 的 星 状 模式 并 不 能 最 优 地 满足 一 个 大 的 团体 用 户 
的 需求 ， 所 以 通常 会 尝试 建立 多 个 星 状 模式 。 当 建立 多 个 星 状 模式 后 ， 每 个 星 状 
模式 都 不 可 避免 地 有 不 同 的 粒度 层次 ， 并 且 数 据 整 合 就 成 了 问题 。 这 种 星 状 模式 
的 增殖 使 得 寻找 数据 的 企业 级 视图 几乎 不 可 能 。 
退化 : 为 了 解决 不 同 星 状 模式 间 多 粒度 级 的 问题 ， 每 个 星 状 模式 的 数据 都 必须 使 
用 最 低 一 级 的 粒度 。 这 样 违背 了 首选 星 状 模式 的 理论 ， 并 产生 了 一 个 典型 的 相关 
设计 ， 这 种 设计 让 数据 仓库 的 设计 者 感觉 格格 不 人。 
图 1-9 显示 了 数据 仓库 使 用 星 状 模式 带 来 的 挑战 。 
从 长 期 来 看 ， 星 状 模式 对 于 数据 仓库 来 说 并 不 是 非 






常 好 的 。 当 有 大 量 的 数据 和 大 量 的 用 户 时 ， 即 有 大 量 、 i 由 问题 

的 多 样 性 ， 使 星 状 模式 能 够 有 效 工 作 的 唯一 方法 就 是 人 
确保 数据 是 非 元 余 的 并 且 在 最 低级 的 粒度 上 对 其 建 模 。 - 仅 能 对 一 类 用 户 优化 
即使 这 样 ， 当 需求 发 生变 化 时 ， 星 状 模式 仍 可 能 不 得 ee CR 
不 被 修改 或 替换 。 图 1-9 星 状 模式 数据 仓库 


然而 ， 在 一 个 用 户 理解 数据 的 方式 几乎 没有 多 样 性 
的 环境 中 ， 如 果 需 求 随 着 时 间 并 不 改变 ， 并 且 如 果 没 有 太 多 的 用 户 ， 那 么 星 状 模式 作为 
数据 仓库 的 基础 就 会 成 为 可 能 。 


1. 19 数据 集 市 数据 仓库 


许多 联机 应 用 处 理 (OLAP) 技术 的 厂商 都 沉 醇 于 使 用 数据 集 市 作为 建立 数据 仓库 的 
方法 。 这 种 方法 给 厂商 们 提供 了 机 会 先 销售 他 们 的 产品 ， 而 不 需要 经 历 建立 一 个 真正 的 
数据 仓库 的 过 程 。 典 型 的 OLAP 厂商 的 销售 定位 为 “ 先 建立 一 个 数据 集 市 ， 然 后 再 将 
它 转 化 为 一 个 数据 仓库 。” 

不 第 的 是 ， 在 建立 一 个 数据 集 市 集合 并 将 它们 称 为 数据 仓库 的 过 程 中 仍 存在 着 许多 问 
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题 。 其 中 一 些 是 : 


数据 的 不 可 调和 性 : 当 管 理 人 员 问 这 样 一 个 问题 ;“ 上 个 月 的 收入 是 多 少 ?”, 会 计 
会 给 出 一 个 答案 ， 市 场 人 员 会 给 出 另 一 个 ， 并 且 财 政 人 员 也 会 给 出 一 个 。 当 会 计 、 
市 场 人 员 、 财 政 人 员 的 答案 互相 不 一 臻 时， 其 调和 是 非常 困难 的 。 

抽取 增殖 : 当 数 据 集 市 第 一 次 建立 起 来 的 时 候 ， 对 原始 环境 的 数据 抽取 的 数目 是 
可 接受 的 ， 或 者 至 少 是 合理 的 。 但 是 当 越 来 越 多 的 数据 集 市 被 加 进来 时 ， 越 来 越 
多 的 原始 数据 抽取 也 必须 加 进来 。 这 样 ， 到 某 一 时 刻 ， 抽 取 原 始 数据 的 负担 就 会 
变 得 无 法 忍受 。 

变更 的 传递 : 当 有 多 个 数据 集 市 并 且 必 须 做 一 些 变更 时 ， 这 些 变更 就 会 涉及 所 有 
数据 集 市 。 如 果 在 一 个 财政 数据 集 市 中 必须 做 一 个 变更 ， 就 很 有 可 能 也 得 在 销售 
数据 集 市 中 再 做 一 遍 该 变更 ， 同 样 也 会 在 市 场 数 据 集 市 中 再 做 一 遍 ， 等 等 。 当 有 
多 个 数据 集 市 时 ， 必 须 在 多 个 地 方 实施 变更 。 此 外 ， 这 些 变 更 必须 以 相同 的 方式 
实施 。 不 能 以 一 种 方式 在 财政 数据 集 市 中 实施 变更 ， 而 以 另外 一 种 方式 在 销售 数 
据 集 市 中 实施 变更 ， 否 则 出 错 率 就 会 以 一 种 前 所 未 有 的 速度 迅速 增加 。 用 于 确保 


传递 的 变更 是 正确 且 彻底 完整 的 管理 人 员 、 时 间 、 资 金 以 及 准则 等 已 经 超过 了 许 


多 组 织 的 承受 范围 。 

个 可 扩展 性 ， 当 需要 建立 一 个 新 的 数据 集 市 时 ， 不 幸 的 是 大 多 数 情况 下 我 们 必须 
丛 头 建 起 。 目 前 为 止 仍 没有 一 种 现实 可 行 的 方法 ， 使 得 建立 新 的 数据 集 市 时 能 够 
大 量 利 用 原来 建立 数据 集 市 时 所 做 的 工作 ， 甚 至 一 点 都 用 不 到 。 


所 有 这 些 因素 加 起 来 就 构成 了 利用 数据 集 市 作为 构建 数据 仓库 的 方法 的 现实 ， 企 业 会 
陷 和 人 一 场 维护 的 噩梦 中 。 
图 1-10 描述 了 使 用 数据 集 市 作为 构建 数据 仓库 的 方法 的 问题 。 


一 个 有 趣 的 情况 是 ， 建 立 一 个 数据 集 市 然后 使 它 成 
长 为 一 个 数据 仓库 是 不 可 能 的 。 数 据 集 市 的 DNA 从 根 
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本 上 就 是 不 同 于 数据 仓库 的 DNA 的 。 建 立 一 个 数据 集 (【 

市 然后 使 它 成 长 为 一 个 数据 仓库 的 理论 类 似 于 宣称 如 果 ee 

你 种 下 了 一 些 薄 公 英 ， 而 它们 长 大 后 会 是 橡树 。 薄 公 英 -不 能 对 变化 做 出 反应 

的 DNA 和 橡树 的 DNA 是 不 同 的 。 为 了 得 到 橡树 ， 你 必 a 


须 种 植 橡 子 。 种 植 蒲公英 的 种 子 只 会 得 到 蒲公英 。 实 际 图 1-10 数据 集 市 数据 仓库 
上 ， 橡 树 和 蒲公英 在 春季 开始 生长 的 时 候 ， 这 两 种 植物 
看 起 来 都 是 一 样 的 小 绿 芽 仅仅 是 个 巧合 。 

同样 ， 数 据 集 市 和 数据 仓库 之 间 存 在 一 些 相似 性 ， 但 认为 其 中 一 个 也 是 另外 一 个 或 者 
认为 其 中 一 个 可 以 变 为 另外 一 个 都 是 错误 的 观点 。 
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建立 一 个 “真正 的 ”数据 仓库 


开发 者 在 构 以 层次 和 数据 仓库 构建 过 程 的 开始 会 做 一 些 重要 的 选择 。 主 要 的 选择 是 需 
要 构建 什么 类 型 的 数据 仓库 一 一 一 个 “真正 的 ”数据 仓库 还 是 某 一 数据 仓库 的 各 种 变形 
中 的 一 个 ? 这 个 选择 意义 长 远 ， 因 为 构建 一 个 数据 仓库 所 需 的 财力 和 人 力 成 本 通常 是 非 
篆 遍 的 。 如 果 开 发 者 做 了 一 个 错误 的 选择 ， 那 么 后 来 某 时 刻 肯定 得 重复 做 许多 费力 的 工 


A 


作 。 没 有 人 喜欢 浪费 大 量 的 资源 ， 而 且 也 很 少 有 人 能 负担 得 起 。 
图 1-11 显示 了 经 理 或 构架 师 正面 临 的 两 难 困境 。 









主动 ”数据 仓库 


| "联合 ”数据 仓库 





企业 数据 仓库 “ 星 状 ” 数 据 仓 库 


“数据 集 市 ”数据 仓库 
图 1-11 所 有 长 期 或 短期 的 后 果 对 组 织 非常 重要 


做 选择 时 面临 的 问题 之 一 是 正在 兜售 数据 仓库 的 厂商 都 非常 善于 游 涪 ， 他 们 的 第 一 目 
标 束 是 说 服 客户 去 构建 需要 他 们 的 产品 和 服务 的 数据 仓库 ， 而 不 是 满足 商业 需求 的 那 种 
必需 的 数据 仓库 。 不 幸 的 是 ， 落 入 这 种 销售 圈套 可 能 会 浪费 大 量 的 资金 和 时 间 。 


1.21 总结 


从 用 户 数 据 仅 限于 通过 IT 部门 中 介 访 问 到 的 可 操作 应 用 数据 的 那些 令 人 泪 丧 的 日 子 
开始 ， 数 据 仓库 已 经 经 过 很 长 的 一 段 发 展 时 间 。 现 在 ， 数 据 仓库 已 经 进化 到 可 以 满足 级 
病 用 户 对 整合 的 、 历 史 的 、 粒 状 的 、 灵 活 的 以 及 准确 的 信息 的 需求 了 。 

第 一 代数 据 仓 库 已 经 变 得 包含 从 粒状 的 、 历 史 的 、 整 合 的 数据 仓库 的 原始 应 用 中 得 到 
的 训练 有 素 的 数据 ETL。 随 着 数据 仓库 的 流行 ， 也 出 现 了 许多 挑战 一 一 数据 量 、 空 间 开 发 
方法 、 启 发 性 等 ， 还 有 更 多 。 随 着 数据 仓库 的 演变 的 继续 ， 一 些 变 体 也 出 现 了 . 

e。 主动 数据 仓库 。 - 

。 联合 数据 仓库 。 

e 星 状 数据 仓库 。 

e。 数据 集 市 数据 仓库 。 

这 些 数据 仓库 的 变 体 都 有 各 自 的 优点 ， 但 它们 同样 也 都 带 了 许多 新 的 、 明 显 的 缺点 。 
下 一 代数 据 仓 库 的 时 代 来 临 了 。 


第 2 和 章 DW2.0 简介 


为 了 解决 数据 仓库 构架 的 选择 问题 并 清除 所 有 的 干扰 ， 人 们 制定 了 DW2.0。DW2.0 
和 在 为 下 一 代数 据 仓库 定义 的 数据 仓库 构架 。 为 了 理解 DW2. 0 是 怎样 形成 的 ， 考 虑 其 以 下 
几 个 形成 因素 : 


在 第 一 代数 据 仓库 中 ， 强 调 了 数据 仓库 本 身 的 建立 和 增加 商业 价值 。 在 第 一 代数 
据 仓库 的 时 代 ， 获 得 价值 是 指 主要 获取 以 数字 为 主 的 事务 数据 ， 并 整合 它们 ， 而 
今天 ， 从 企业 数据 中 获得 最 大 价值 意味 着 利用 所 有 的 企业 数据 并 从 中 获取 价值 ， 
这 总 味 看 既 包 括 文本 的 、 非 结构 化 的 数据 ， 也 包括 数字 化 的 交易 数据 。 

在 第 一 代数 据 仓库 中 ， 没 有 对 数据 的 存储 介质 和 数据 量 给 予 太 多 关注 。 但 时 间 已 
经 证 明 数 据 的 存储 介质 和 数据 量 确实 是 非常 重要 的 问题 。 

在 第 一 代数 据 仓库 中 ， 人 们 已 经 认识 到 整合 数据 是 一 个 问题 。 而 现在 ， 人 们 发 现 
整合 旧 的 数据 是 一 个 超 乎 想象 的 更 大 的 问题 。 

在 第 一 代数 据 仓库 中 ， 成 本 几乎 不 用 考虑 。 而 现在 ， 数 据 仓库 的 成 本 则 是 人 们 的 
二 个 二 要 关 往 后 5 

在 第 一 代数 据 仓库 中 ， 人 们 忽视 了 元 数据 。 而 现在 ， 元 数据 和 主 数据 的 管理 成 为 
人 们 热 议 的 问题 。 

在 第 一 代数 据 仓库 的 早期 ， 数 据 仓库 被 认为 是 一 个 新 鲜 事物 。 如 今 ， 数 据 仓库 被 
认为 是 有 竞争 力 地 利用 信息 的 基础 。 数 据 仓库 已 经 变 得 必 不 可 少 。 

在 数据 仓库 发 展 的 早期 ， 重 点 仅仅 是 构建 数据 仓库 。 现 在 人 们 认识 到 ， 数 据 仓 庄 
雷 醒 随 着 时 间 的 推移 保持 可 扩展 性 ， 以 便 跟 得 上 不 断 变化 的 业务 需求 。 

在 数据 仓库 发 展 的 早期 ， 人 们 认为 数据 仓库 对 统计 分 析 可 能 有 用 。 今 天 人 们 认识 
到 ， 利 用 数据 仓库 进行 统计 分 析 的 最 有 效 方 法 是 在 一 个 被 称 为 探索 仓库 的 相关 数 
据 仓 库 结构 中 进行 。 


如 今 ， 经 过 几 十 年 建立 和 使 用 这 些 结构 的 实践 ， 我 们 确实 已 经 对 数据 仓库 更 加 了 解 ， 


Ay 


DW2. 0 一 一 一 种 新 的 范式 


DW2.0 是 由 当前 的 一 些 开 明 且 有 远见 的 决策 支持 企 事 业界 所 要 求 的 一 种 新 的 数据 他 
库 范 式 。 这 种 新 的 范式 关注 数据 的 不 同类 型 、 基 本 结构 ， 以 及 它们 怎样 关联 起 来 形成 
个 强大 的 数据 存储 器 以 满足 公司 对 信息 的 需求 。 

图 2-1 解释 了 新 的 DW2. 0 构架 。 该 图 展示 了 不 同 的 数据 类 型 、 它 们 的 基本 结构 。 以 
尽 不 同 的 数据 类 型 如 何 关联 。 本 书 接 下 来 将 致力 于 介绍 隐 含 在 该 图 中 的 DW2.0 下 一 代数 
据 仓库 构架 及 其 微妙 之 处 。 


<. 2 DW2. 0 一 一 从 企业 的 角度 
DW2.0 之 所 以 能 吸引 企业 人 士 有 一 些 重要 的 原因 。 其 中 的 一 些 是 . 





下 一 代数 据 仓 库 的 构架 


非常 新 的 数 
据 一 一 如 刚 
2 秒 的 数据 





大 概 有 24 小 
时 或 一 个 月 





3~4 年 之 
久 的 数据 





归档 区 
超过 5 年 甚至 四 吐 0 








图 2-1 DW2.0 的 数据 结构 


结构 化 


。 数据 仓库 基础 设施 的 成 本 不 再 持续 增长 。 在 第 一 代数 据 仓 库 中 ， 技术 基 础 设施 的 
成 本 是 不 断 增长 的 。 随 着 数据 量 的 增长 ， 基 础 设施 的 成 本 会 以 指数 级 增长 。 但 是 
使 用 DW2.0， 数 据 仓 库 的 这 一 成 本 会 趋 于 平稳 。 

。 使 用 元 数据 将 基础 设施 结合 在 一 起 ， 这 意味 着 数据 不 会 轻易 丢失 。 在 第 一 代数 据 
仓库 中 ， 一 个 数据 单元 或 一 个 数据 类 型 是 很 容易 “丢失 ”的 。 这 就 像 纽 约 市 立 图 
书馆 书架 上 的 一 本 书 摆 错 了 位 置 一 样 ,一 且 摆 错位 置 ， 可 能 需要 若干 年 才能 将 其 
放 回 容易 被 人 们 找到 的 位 置 。 第 一 代数 据 仓库 环境 下 的 数据 也 是 如 此 。 而 作为 
DW2.0 骨干 的 元 数据 则 不 会 令 数据 轻易 丢失。 

。 数据 访问 速度 快 。 在 第 一 代数 据 仓库 中 ， 数 据 是 堆 秋 在 其 他 数据 上 的 。 堆 秋 的 数 
据 很 快 就 成 为 访问 障碍 ， 因 为 需要 的 数据 很 可 能 “隐藏 ”在 大 量 不 需要 的 数据 之 
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下 ， 结 果 造 成 较 低 的 访问 性 能 。 而 在 DW2.0 环境 下 ， 数 据 是 根据 其 访问 概率 放置 
的 ， 因 此 它 的 数据 访问 性 能 比 第 一 代数 据 仓 库 环 境 更 为 有 效 。 

。 存档 需求 的 关注 。 第 一 代数 据 仓 库 中 很 少 有 甚至 没有 存档 数据 ， 因 此 数据 只 能 存 
储 相 对 较 短 的 一 段 时 间 。 而 在 DW2. 0 环境 下 ， 数 据 是 被 存档 的 ， 这 样 它 就 能 够 永 
和 久保 存 下 去 ， 或 者 视 需 要 而 定 。 

。 数据 仓库 吸引 大 量 的 数据 。 使 用 第 一 代数 据 仓 库 ， 终 端 用 户 不 得 不 忍受 管理 和 访 
问 大 量 数据 带 来 的 痛苦 。 而 对 于 DW2. 0， 由 于 数据 是 分 段 的 ， 终端 用 户 需 要 处 理 
的 数据 量 就 会 少 得 多 。 

所 有 这 些 因素 都 对 终端 用 户 有 一 定 影响 。 数 据 仓库 的 成 本 显著 降低 ， 有 效 访 问 和 查询 
数据 的 能 力 提 高 ， 数 据 访 问 速 度 加 快 ， 数 据 可 保存 的 时 间 增 长 。 简 而 言 之 ,这些 因素 提 
遍 了 企业 人 士 使 用 数据 的 能 力 ， 使 他 们 能 够 以 一 种 比 第 一 代数 据 仓 库 更 有 效 的 方式 使 用 
数据 。 

那么 ，DW2.0 与 第 一 代数 据 仓库 有 哪些 区 别 呢 ? 事实 上 有 很 多 显著 的 差别 ， 最 突出 
也 是 最 重要 的 一 点 就 是 对 数据 仓库 中 的 数据 生命 周期 的 认识 。 


2.3 数据 的 生命 周期 


在 第 一 代数 据 仓库 中 ， 人 们 认为 只 需要 在 数据 仓库 建立 时 把 数据 存放 在 某 种 形式 的 磁 
盘存 储 器 即 可 。 但 是 ， 这 仅仅 是 个 开始 数据 进入 数据 仓库 后 就 开启 了 生命 周期 。 另 
外 ， 这 也 只 是 第 一 代数 据 仓库 开发 者 的 天 真 想法 。 

认识 到 数据 在 数据 仓库 中 的 生命 周期 后 ，DW2. 0 数据 仓库 包括 了 四 个 数据 生命 周 其 
分 区 。 第 一 个 分 区 是 交互 区 。 数 据 存 人 数据 仓库 后 迅速 进入 交互 区 。 随 着 数据 的 调整 、 
数据 被 整合 后 传递 到 整合 区 。 毫 无 疑问 ， 整 合 的 数据 是 在 整合 区 被 发 现 的 ， 并 且 一 吉 位 
于 整合 区 ， 直 至 其 访问 概率 下 降 。 数 据 的 访问 概率 往往 会 伴随 着 存储 时 间 的 增加 而 下 降 . 
通常 情况 下 ，3 ~4 年 之 后 ， 整 合 区 数据 的 访问 概率 会 明显 下 降 。 

数据 经 过 整合 区 之 后 可 能 进入 以 下 两 个 分 区 之 一 。 一 个 是 近 线 区 。 在 许多 方面 ， 近 线 
区 就 像 是 整合 区 的 延伸 。 近 线 区 是 可 选择 的 ， 亦 即 数 据 不 一 定 需 要 经 过 这 一 区 。 但 是 当 
数据 量 非常 大 并 且 数 据 间 的 访问 概率 差别 很 大 时 ， 就 可 以 利用 近 线 区 来 处 理 。 

太一 个 分 区 则 是 归档 区 。 归 档 区 中 的 数据 访问 概率 很 低 ， 数 据 既 可 以 从 近 线 区 也 可 以 
从 整合 区 进入 归档 区 。 归 档 区 的 数据 通常 是 5 ~ 10 年 ， 甚 至 更 长 。 

数据 的 生命 周期 在 它 进入 DW2. 0 数据 仓库 后 看 起 来 是 什么 样 的 呢 ? 图 2.2 说 明了 
DW2.0 的 数据 生命 周期 。 

数据 要 么 通过 ETL 从 另 一 个 应 用 程序 导入 DW2.0 环境 ， 要 么 通过 艇 入 在 交互 区 中 的 
应 用 程序 直接 导入 DW2. 0 环境。 交互 区 是 数据 联机 更 新 的 场所 ,并且 在 响应 时 间 方 面 有 
看 很 高 的 性 能 。 进 入 交互 区 的 数据 都 是 刚 进入 数据 仓库 的 新 数据 ， 也 许 只 生成 了 几 秒 钟 。 
交互 区 的 男 一 类 数据 被 用 作 共 享 应 用 程序 的 一 部 分 来 处 理 ， 在 这 种 情况 下 ， 数 据 生成 时 
间 仅 有 几 毫 秒 。 / 

作为 交互 区 的 数据 的 一 个 实例 ， 我 们 来 考虑 一 次 自动 柜员 机 (ATM) 的 交易 。 在 一 
次 目 动 柜员 机 的 交易 中 ， 数 据 会 在 交易 二 结束 就 被 获得 。 这 些 数据 在 大 约 不 到 二 秒 钟 的 
时 间 内 送 入 交互 区 。 数 据 可 以 利用 两 种 方式 之 一 进入 交互 区 一 种 方法 是 在 DW2.0 数据 
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非常 新 的 数 
据 一 一 如 刚 
2 秒 的 数据 





大 概 有 24 小 
时 或 一 个 月 
之 久 的 数据 


近 线 区 


3~ 4 年 之 
久 的 数据 





超过 5 年 甚至 
10 年 的 数据 


图 2-2 数据 在 DW2.0 环境 下 有 生命 周期 ， 在 数据 仓库 中 的 不 同 阶段 也 有 相应 的 数据 区 


非 结构 化 结构 化 





仓库 外 部 可 能 存在 这 样 的 应 用 ， 可 以 捕获 被 当 作 交 易 的 副产品 的 数据 。 在 这 种 情况 下 ， 
应 用 程序 执行 交易 ， 之 后 将 数据 通过 ETL 传送 到 数据 仓库 的 交互 区 。 

数据 进入 交互 区 的 另 一 种 方式 是 在 应 用 程序 作为 DW2.0 数据 仓库 的 一 部 分 的 情况 下 ， 
应 用 程序 执行 交易 ， 之 后 立即 将 数据 送 入 交互 区 。 

区 分 两 种 方式 的 关键 在 于 交互 区 的 应 用 程序 位 于 交互 区 的 外 部 ,还 是 实际 位 于 交互 
区 内 。 

无 论 其 起 源 如 何 ， 交 易 数 据 必定 是 面向 应 用 的 ， 在 交互 区 的 数据 最 终 会 到 达 应 用 
状态 。 

在 有 的 时 间 点 ， 需 要 将 交易 数据 与 应 用 数据 整合 在 一 起 。 这 些 时 间 点 可 能 在 数据 到 达 
交互 区 之 后 的 几 秒 ， 也 可 能 是 几 天 或 者 几 周 之 后 。 无 论 如 何 ， 在 一 些 时 间 点 需要 整合 应 
用 数据 ， 这 些 时 间 点 通常 是 在 数据 进入 整合 区 之 后 的 时 间 。 

数据 通过 ETL 进入 整合 区 。 在 经 ETL 进入 整合 区 的 同时 ， 数 据 脱离 了 应 用 状态 ， 并 
获得 企业 数据 状态 。 这 个 任务 是 由 TL 的 转换 代码 来 完成 的 。 
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一 旦 进入 整合 状态 ， 数 据 与 其 他 相似 的 数据 聚集 在 一 起 。 大 量 数据 聚集 在 整合 区 ， 而 
且 只 要 其 一 直 保 持 较 高 的 访问 概率 ， 就 会 一 直 处 于 整合 状态 。 对 于 很 多 组 织 而 言 ， 这 意 
味 者 数据 在 整合 区 要 保留 3 ~5 年 的 时 间 ， 这 取决 于 组 织 的 业务 及 其 所 做 的 决策 支持 
处 理 。 

在 茶 些 情况 下 ， 整 合 区 将 有 非常 大 的 数据 量 和 非常 频繁 的 数据 访问 。 这 时 ， 最 好 使 用 
近 线 人 存储 器 作为 整合 数据 的 一 个 缓存 。 企 业 可 以 利用 近 线 区 以 电子 方式 提供 大 量 数据 
市 有 近 线 存 储 器 的 整合 数据 存储 器 使 得 整个 整合 环境 的 成 本 更 易 接 受 。 当 数据 的 访问 概 
率 剧 烈 下 降 时 ， 数 据 被 放 入 近 线 存储 器 ， 而 访问 概率 大 的 数据 则 不 应 存放 在 近 线 存储 器 
委 。 我 们 认为 所 有 存 人 近 线 存储 器 的 数据 的 访问 概率 都 已 经 由 控制 企业 数据 存储 的 分 析 
员 核 实 过 。 

DW2.0 的 最 后 一 个 区 是 归档 区 。 归 档 区 保存 那些 以 电子 方式 收集 回来 的 、 将 来 可 能 
彼 使 用 的 数据 。 归 档 区 所 存储 的 数据 是 由 近 线 区 或 者 整合 区 传送 来 的 ， 它 们 的 访问 概率 
很 低 。 在 某 些 情况 下 ， 将 数据 存储 在 归档 区 是 出 于 预防 的 目的 ， 即 使 人 们 认为 它 的 访问 
概率 是 零 。 


2.4 设置 不 同 区 的 原因 


在 DW2.0 环境 下 设置 不 同 的 区 有 多 方面 的 原因 。 不 同 区 之 间 区 别 的 核心 问题 是 ， 数 
据 从 一 个 区 传递 到 另 一 个 区 时 ， 数 据 的 基本 操作 参数 随 之 改变 。 图 2-3 展示 了 各 个 区 之 间 
基本 操作 上 的 一 些 差异 O 


概率 ， 访 问 模式 





图 2-3 随 着 DW2.0 中 的 数据 经 历 其 整个 生命 周期 ， 它 的 访问 概率 和 数据 量 显著 变化 


站 2-3 表明 ， 在 区 与 区 之 间 ， 数 据 的 访问 概率 和 访问 模式 差别 很 大 。 交 互 区 的 数据 被 
频 楷 访问 ， 并 且 其 访问 模式 是 随机 访问 。 整 合 区 数据 的 被 访问 概率 也 很 高 ， 但 通 党 是 顺 
奈 、 成 串 的 访问 。 近 线 区 的 数据 访问 概率 相对 较 低 ， 并 且 在 访问 时 是 随机 的 。 归 档 区 的 
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数据 很 少 被 访问 ， 它 能 够 被 顺序 地 、 不 定期 地 、 随 机 地 访问 。 

除了 不 同 的 访问 模式 外 ， 不 同 的 区 在 数据 量 上 也 有 很 明显 的 差别 。 交 互 区 的 数据 量 相 
对 较 小 。 整 合 区 的 数据 较 多 。 如 果 一 个 企业 中 完全 是 近 线 数据 ， 那么 近 线 区 通常 会 有 相 
当 大 数量 的 数据 。 归 档 区 的 数据 也 可 能 显著 增长 ， 即 使 最 初 几 年 收集 的 归档 数据 相对 较 
少 ， 但 随 着 时 间 的 推移 ， 大 量 数据 完全 有 可 能 聚集 到 归档 区 。 

难题 出 现 了 。 在 经 典 的 数据 仓库 中 ， 所 有 的 数据 都 存放 在 磁盘 存储 器 上 ， 好 像 所 有 的 
数据 都 有 平等 的 访问 机 会 。 但 是 ， 随 着 时 间 的 推移 和 聚集 的 数据 量 的 增 大 ， 数 据 的 访问 
概率 逐步 下 降 ， 从 而 产生 一 种 奇怪 的 现象 : 数据 存放 在 磁盘 存储 器 中 越 多 ， 其 被 使 用 的 
次 数 越 少 。 

成 本 昂贵 ， 结 果 却 得 到 较 差 的 性 能 。 事 实 上 ， 成 本 是 非 党 昂贵 的 。 

性 能 不 佳 和 高 成 本 并 不 是 第 一 代数 据 仓库 达 不 到 最 佳 的 唯一 原因 ， 将 数据 划分 成 不 同 
的 生命 周期 区 还 有 一 些 其 他 的 合理 原因 ， 其 中 之 一 是 不 同 的 技术 适用 于 不 同 的 区 。 


2.5 元 数据 s 
以 元 数据 为 例 。 元 数据 是 DW2.0 环境 下 辅助 的 描述 数据 ， 用 于 告诉 用 户 及 分 析 员 数 
据 在 哪里 。 图 2-4 说 明了 DW2.0 构架 下 交互 区 与 归档 区 元 数据 在 处 理 上 的 显 着 差异 。 
yy 
交互 区 





所 
外 
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人 归档 区 a 





图 2-4 ”对 于 交互 数据 ， 元 数据 分 开 存储 ;对 于 归档 数据 ， 元 数据 直接 与 数据 一 起 存储 
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图 2-4 表明 ， 在 实践 惯例 中 是 把 元 数据 同 实际 数据 本 身分 开 存储 。 元 数据 存储 在 目 
录 、 索 引 、 存 储 库 及 其 他 上 百 个 地 方 。 在 所 有 情况 下 ， 元 数据 与 它 所 描述 的 数据 在 物理 
上 都 是 分 开 的 。 

相反 ， 在 归档 区 ， 元 数据 与 它 所 描述 的 数据 在 物理 上 是 二 起 存储 的 ,归档 环境 中 物理 
存储 元 数据 的 原因 是 归档 数据 可 能 20 年 或 者 30 年 没有 使 用 过 ， 谁 知道 它们 将 在 未 来 的 什 
么 时 候 需 要 用 到 ,或 者 用 于 何 种 目的 ? 因此 ， 元 数据 需要 与 实际 数据 一 起 存储 ， 以 便 在 
a RR 
据 。 某 人 访问 归档 数据 ， 惊 二 者 示 该 数据 
的 含义 。 在 30 年 的 时 间 里 ， ep rr 现在 温 久 能 撞 入 到 光 虎 据 . 六 
果 就 是 没 人 能 够 解释 那 一 堆 归 档 数 据 。 

但 是 ， 如 果 元 数据 与 实际 数据 本 身 物理 地 存储 在 一 起 ， 那 么 30 年 后 当 档 案 保 管 员 打 
开 数 据 时 ， 实 际 数 据 的 含义 、 格 式 和 结构 就 会 立刻 清楚 地 呈现 。 

从 终端 用 户 的 角度 看 ， 终 端 用 户 的 满意 度 与 元 数据 有 关 。 有 了 元 数据 ， 终 端 用 户 可 以 
判断 数据 和 分 析 是 否 已 经 存在 于 企业 中 的 某 个 地 方 。 如 果 没 有 元 数据 ,商业 火 主 判断 数 
据 和 分 析 是 否 已 经 存在 就 很 困难 。 出 于 这 个 原因 ， 元 数据 成 为 商业 人 十 钟情 DW2.0 环境 
的 因素 之 一 。 


2.6 数据 访问 


数据 访问 是 DW2. 0 各 个 数据 区 之 间 的 另 一 个 根本 区 别 。 图 2-5 显示 了 数据 访问 的 基 
本 问题 。 
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图 2-5 为 一 个 主要 区 别 是 数据 访问 方式 
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该 图 强调 了 交互 区 与 归档 区 在 数据 访问 的 方式 与 频率 上 的 最 根本 区 别 。 交 互 区 的 数据 
被 随机 地 频繁 访问 。 上 一 秒 钟 ， 一 次 交易 发 生 ， 要 求 查看 某 一 个 单元 的 数据 。 下 一 秒 钟 ， 
另 一 次 交易 发 生 ， 要 求 访问 另 一 个 完全 不 同 的 数据 单元 。 并 且 这 两 次 数据 访问 之 后 的 处 
理 都 要 求 迅 速 访问 数据 ， 几 乎 是 瞬间 完成 。 

现在 再 来 看 归档 数据 的 访问 。 就 归档 数据 而 言 ， 很 少 对 其 访问 。 访 问 归档 数据 时 ， 会 
顺序 地 访问 其 整 段 的 记录 。 此 外 ， 归 档 数 据 访问 的 响应 时 间 较 为 览 松 。 

我 们 也 可 以 看 到 ， 在 DW2. 0 构架 下 的 各 数据 区 之 间 ， 数 据 访 问 方式 有 很 大 不 同 ， 各 
区 应 用 的 技术 也 不 同 。 因 此 ， 没 有 任何 一 种 单一 的 技术 一 一 没有 一 刀 切 的 技术 一 一 是 现代 
数据 仓库 中 发 现 数据 的 最 佳 技 术 。 那 种 简单 地 认为 只 要 把 数据 存储 在 磁盘 上 ， 一 切 都 日 
己 照顾 自己 的 旧 观 念 是 不 正确 的 。 

尽管 数据 生命 周期 是 DW2. 0 的 一 个 重要 方面 ， 但 它 并 不 是 其 区 别 于 第 一 代数 据 仓库 
的 唯一 不 同 之 处 。 男 一 个 主要 区 别 是 DW2. 0 环境 中 既 包 含 结 构 化 数据 ， 也 包含 非 结 构 化 
数据 。 \ 


2. 7 ”结构 化 数据 / 非 结 构 化 数据 


一 般 存在 两 种 基本 类 型 的 数据 一 结构 化 数据 和 非 结 构 化 数据 。 结 构 化 数据 表现 为 相 
同 的 格式 和 布局 ， 通 常 由 交易 的 保障 来 实现 。 结 构 化 数据 的 典型 例子 包括 银行 交易 、 航 
空 定位 处 理 、 保 险 交易 、 制 造 交易 、 零 售 交易 等 生成 的 数据 。 结 构 化 数据 便于 存储 在 资 
料 库 记 录 中 ， 记 录 中 包含 属性 、 键 、 索 引 、 表 格 等 。 事 实 上 ， 整 个 结构 化 数据 世界 得 到 
了 标准 的 数据 库 技术 的 较 好 支持 。 

另 一 类 数据 是 非 结构 化 数据 。 非 结构 化 数据 有 两 种 基本 形式 一 一 文本 的 和 非 文 本 的 。 
文本 的 非 结构 化 数据 出 现在 很 多 地 方 -一 -电子 邮件 、 电 话 交谈 、 幻 灯 片 演示 等 。 非 文本 的 
非 结构 化 数据 出 现在 诸如 图 形 和 图 像 里 ， 包 含 但 不 仅 限 于 照片 、X 射线 、 核 磁 共振 、 图 表 
和 插图 等 。 

虽然 目前 的 技术 还 不 能 非常 精妙 地 处 理 非 文本 数据 ， 伍 对 文本 的 非 结构 化 数据 来 说 却 
不 同 。 可 以 对 文本 的 非 结构 化 数据 进行 捕获 和 操作 。 标 准 数据 库 技术 很 难处 理 文本 数据 ， 
因为 文本 数据 不 像 结构 化 数据 那样 结构 统一 。 然 而 ， 这 并 不 意味 着 文本 数据 价值 不 够 大 。 
相反 ,文本 数据 中 蕴涵 着 很 多 有 价值 的 东西 ， 只 是 文本 数据 不 容易 被 标准 数据 库 技术 处 
理 和 操作 。 

DW2. 0 要 求 将 非 结构 化 文本 数据 存放 在 数据 仓库 中 * 并 且 与 结构 化 数据 整合 在 一 起 。 
这 为 我 们 创新 地 利用 信息 带 来 了 很 好 的 机 会 。 

图 2-6 显示 了 DW2.0 构架 下 结构 化 数据 和 非 结构 化 数据 间 的 基本 区 分 ， 并 强调 必须 
合并 和 整合 这 两 种 数据 。 \ 
在 DW2.0 环境 下 将 结构 化 和 非 结构 化 数据 结合 窑 一 起 面临 很 多 挑战 。 其 中 之 一 是 结 
构 化 数据 和 非 结构 化 数据 的 整合 。 有 些 非 结构 化 数据 无 法 与 结构 化 数据 整合 ， 而 其 他 的 

可 以 。 

事实 上 ， 非 结构 化 数据 有 两 种 一 一 非 结构 化 数据 和 半 结 构 化 数据 。 非 结构 化 数据 是 以 
自由 的 形式 书写 的 文本 。 一 本 书 、 一 本 手册 或 者 一 个 培训 课程 往往 有 大 量 的 非 结构 化 广 
本 。 半 结构 化 数据 是 其 中 有 重复 性 格式 的 文本 数据 。 例 如 ， 一 本 食谱 书 是 一 个 单一 的 文 
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图 2-6 在 许多 方面 存在 差异 的 两 个 完全 不 同 的 世界 


es 


件 ， 但 在 食谱 书 中 有 很 多 食谱 ， 每 一 个 食谱 都 有 自己 的 材料 和 做 法 ， 每 个 食谱 就 是 一 个 
半 结 构 化 数据 。 | 0 
文本 数据 整合 进 DW2. 0 环境 需要 以 非 结构 化 数据 和 半 结 构 化 数据 作为 输入 。 


2.8 文本 分 析 


DW2. 0 数据 仓库 里 的 结构 化 数据 与 非 结 构 化 数据 的 整合 ， 使 一 种 不 同 的 分 析 一 一 对 
文本 数据 的 分 析 处 理 有 了 用 武之 地 ， 这 种 分 析 在 以 前 就 被 做 过 。 它 既 可 以 对 非 结 构 化 的 
数据 也 可 以 对 结构 化 与 非 结构 化 相 结合 的 数据 进行 分 析 处 理 ， 如 图 2-7 所 示 。 





非 结构 化 数据 结构 化 数据 
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图 2-7 当 数 据 仓库 中 包含 非 结构 化 的 数据 : a) 非 结构 化 数据 单独 进行 访问 分 析 ; b) 非 结 构 化 数 
据 可 以 同 结构 化 数据 一 起 分 析 ; c) 一 些 非 结 构 化 数据 可 以 近似 地 与 结构 化 数据 连接 
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在 DW2.0 数据 仓库 中 将 非 结构 化 数据 与 结构 化 数据 合并 面临 着 很 多 的 挑战 ， 其 中 之 
一 是 筛选 非 结构 化 数据 。 由 于 各 种 原因 ， 非 结构 化 数据 中 包含 有 一 些 可 以 称 之 为 “废话 ” 
的 信息 “废话 ”是 对 公司 业务 没有 任何 意义 的 数据 。 一 个 典型 的 例子 就 是 电子 邮件 中 的 
“废话 ”。 

假设 一 封 电 子 邮 件 这 样 写 道 : “亲爱 的 ， 今 天 晚上 了 吃 什 么 ?” 电 子 邮件 世界 里 充满 了 
这 样 的 个 人 内 容 ， 个 人 邮件 与 公司 的 业务 没有 关系 ， 对 业务 没有 影响 。 车 某 人 保存 电子 
邮件 ， 他 通常 并 不 需要 保存 这 些 “ 废 话 ”， 它 只 是 一 种 妨碍 。 

电子 邮件 并 不 是 唯一 需要 筛选 废话 的 非 结 构 化 数据 ， 所 有 非 结 构 化 数据 都 需要 进行 
“废话 ”筛选 。 如 果 公 司 不 屏蔽 “废话 ”， 那 么 加 载 到 DW2. 0 环境 的 非 结 构 化 数据 可 能 都 
是 不 相关 的 腔 肿 的 数据 ， 也 不 利于 分 析 。 因 此 ， 筛 选 是 收集 和 管理 非 结 构 化 数据 的 一 个 
重要 过 程 。 

图 2-8 描绘 了 非 结 构 化 数据 进入 DW2. 0 环境 前 的 筛选 过 程 。 

利 选 “废话 ”仅仅 是 为 DW2.0 环境 准备 非 结 构 化 数 
据 需 要 做 的 众多 步 又 中 的 第 一 步 。 另 一 项 主要 工作 是 对 非 
结构 化 数据 建立 一 个 一 般 的 〈 规 范 化 的 ) 文本 基础 。 A 

要 想 使 非 结 构 化 数据 对 分 析 有 用 ， 必 须 将 它 转 变 成 一 
种 既 能 做 一 般 分 析 又 能 做 特殊 分 析 的 数据 。 想 要 理解 一 般 rs A 
和 特殊 基础 对 非 结 构 化 文本 的 需求 ， 可 以 这 样 考虑 ， 在 几 
乎 所 有 的 公司 任务 中 ， 非 结构 化 文本 有 多 种 来 源 。 无 论 是 ”图 2-8 非 结构 化 数据 需要 筛选 
什么 样 的 非 结构 化 数据 ， 不 管 是 文件 、 电 子 邮件 还 是 病历 
等 ， 都 是 不 同 的 人 写 的 。 


2. 10 ”术语 问题 


由 于 文本 是 由 许多 不 同 的 人 书写 的 ， 因 此 必须 考虑 不 同 的 人 使 用 不 同 术 语 的 问题 。 

由 于 不 同 的 背景 、 年 龄 、 种 族 、 社 会 阶层 、 教 育 水 平 、 国 籍 、 母 语 以 及 许多 其 他 因 
系 ， 人 们 对 同样 的 事情 有 许多 不 同 的 表达 方式 。 如 果 对 同样 的 事情 的 不 同 表 达 方式 不 
规范 化 ， 那 么 就 不 可 能 对 文本 数据 做 出 有 意义 的 分 析 。 因 此 ， 如 果 将 文本 数据 用 于 文 
本 分 析 ， 它 必须 首先 经 过 规范 化 过 程 。 

在 进行 文本 分 析 之 前 需要 对 文本 进行 规范 化 还 有 另 一 个 原因 。 这 就 是 当 作者 写 下 文本 
时 可 能 不 知道 该 文本 将 被 阅读 并 输入 到 数据 仓库 ， 因 此 作者 没有 考虑 任何 术语 的 解析 。 
负责 为 数据 库 输 入 文本 做 准备 的 分 析 师 需要 阅读 文本 ， 并 向 吸收 文本 的 系统 描述 这 些 文 
本 如 何 解 释 。 对 机 器 描述 文本 的 过 程 并 不 容易 ， 这 也 是 文本 规范 化 所 必需 的 一 部 分 。 

文本 规范 化 过 程 要 求 将 文字 映射 成 两 种 格式 一 一 特定 格式 和 一 般 格式 。 特 定格 式 通 常 
是 人 所 说 的 或 所 写 下 的 。 一 般 格式 是 由 人 所 说 的 或 写 下 的 东西 经 过 规范 化 所 达到 的 数 
据 值 。 

举 一 个 数据 的 一 般 格式 和 特定 格式 的 例子 。 假设 某 人 如 下 写 道 :“ 脚 躁 一 直 受 到 压力 
并 且 已 经 脱落 。” 这 段 话 是 一 个 具体 的 原始 的 文本 。 现 在 假设 有 人 正在 做 二 个 关于 骨头 损 
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伤 的 研究 。 当 其 以 骨头 为 关键 字 搜索 时 就 不 会 搜索 到 脚 趴 字样， 而 以 受伤 为 关键 字 搜 索 
也 不 会 出 现 脱落 字样 。 但 是 ， 如 果 这 段 文本 已 经 过 预 处 理 转化 为 特殊 与 一 般 格 式 ， 词 语 
脚 躁 可 以 被 认定 为 骨头 ， 词 语 脱落 可 以 被 认定 为 受伤 的 一 种 表达 。 由 特定 格式 建立 一 般 
格式 的 过 程 中 就 会 出 现 两 个 表达 一 一 脚 趴 /骨头 ， 脱 落 /受伤 。 在 特定 格式 与 一 般 格式 间 建 
立 关联 ， 并 且 这 两 种 格式 都 已 经 存 人 DW2.0 环境 后 ， 分 析 师 在 非 结 构 化 数据 中 查找 骨 伤 
的 时 候 就 会 立即 找到 脚 躁 脱 落 。 

因此 ， 为 DW2.0 环境 准备 非 格 式 化 数据 的 第 二 个 主要 步骤 是 读 取 特定 数据 ， 并 对 特 
定数 据 添加 一 般 数 据 ， 使 得 数据 适合 分 析 。 做 不 到 这 点 就 是 对 时 间 和 机 会 的 浪费 。 


2. 11 特定 文本 /一 般 文 本 


图 2-9 说 明了 在 数据 进入 DW2. 0 环境 之 前 ， 读 取 特 定数 据 并 为 其 建立 一 个 一 般 文本 
数据 的 一 般 解释 的 必要 性 。 

数据 仓库 中 对 数据 生命 周期 的 认识 以 及 包 
含 非 结构 化 数据 是 在 第 一 代数 据 仓库 上 的 重大 
进步 。 但 它们 并 不 是 DW2. 0 提供 给 下 一 代数 据 
仓库 用 户 的 唯一 改进 。 

从 商业 角度 来 看 ， 术 语 规范 化 是 必需 的 。 
如 果 不 对 文本 进行 规范 化 ， 那 么 商业 人 士 试图 
对 文本 数据 进行 分 析 就 都 是 徒劳 。 图 2-9 原始 文本 需要 转换 成 特定 /一 般 文本 


2. 12 元 数据 一 一 一 个 主要 组 成 部 分 


DW2.0 认为 元 数据 是 数据 仓库 基本 结构 的 一 个 主要 的 并 且 极 为 重要 的 部 分 。 
出 于 多 种 原因 ， 元 数据 在 第 一 代数 据 仓 库 中 一 直 没 有 被 认为 或 作为 一 个 重要 组 成 部 
分 。 随 着 新 一 代数 据 仓库 的 出 现 ， 元 数据 不 再 会 被 忽视 。 
元 数据 位 于 数据 之 上 ， 用 于 描述 实际 数据 中 包含 什么 样 的 信息 。 元 数据 在 任何 环境 下 
都 很 重要 ， 而 在 DW2. 0 环境 下 尤为 重要 。 
那么 ， 为 什么 元 数据 对 于 DW2.0 如 此 重要 ， 而 在 第 一 代数 据 仓 库 中 它 却 是 可 选 的 甚至 
馈 忽 视 ? 有 一 些 非常 好 的 、 非 常 令 人 信服 的 原因 可 以 说 明 元 数据 在 DW2. 0 构架 下 的 重要 性 ; 
。 规模 和 多 样 性 : 今天 的 数据 仓库 比 以 往 的 数据 仓库 更 大 ， 也 更 多 样 化 。 虽 然 以 笋 
的 数据 仓库 可 能 已 经 能 够 非 正 式 地 掌握 数据 仓库 中 有 些 什么 数据 ， 但 由 于 现在 的 
数据 仓库 中 数据 的 数据 量 和 多 样 性 ， 它 不 可 能 掌握 其 中 所 有 内 容 。 
。 更 多 样 化 的 用 户 : 现在 的 数据 仓库 的 用 户 越 来 越 多 样 化 。 过 去 只 有 少量 的 一 些 用 
己 ， 他 们 形成 了 一 个 非常 紧密 的 社区 。 而 现在 则 有 很 多 不 同 背 景 的 用 户 。 使 这 些 
用 户 了 解数 据 仓 库 中 有 什么 完全 是 数据 仓库 应 该 完成 的 工作 。 
。 广泛 的 元 数据 范围 : 元 数据 位 于 成 功 的 DSS (决策 支持 系统 ) 处 理 的 核心 。 要 做 
到 最 优 的 决策 支持 系统 处 理 ， 终 端 用 户 分 析 师 必须 知道 很 多 关于 可 用 于 分 析 的 数 
据 的 事情 。 终 端 用 户 分 析 师 需要 知道 数据 来 自 哪 里 、 是 什么 意思 、 进 行 什么 证 算 、 
包 合 哪 些 源 数据 、 不 包括 哪些 源 数据 、 数 据 何 时 可 用 ， 等 等 。 所 有 这 些 元 数据 信 
县 对 最 终 用户 分 析 师 都 非常 重要 。 
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。 管理 需要 : 随 着 数据 仓库 的 成 长 ， 数 据 仓库 环境 的 管理 变 得 更 加 复杂 。 元 数据 越 
好 ， 数 据 仓 库 环 境 的 管理 则 越 好 、 越 简单 。 
这 只 是 DW2. 0 包含 元 数据 的 几 个 原因 。 图 2-10 显示 了 DW2.0 构架 下 的 元 数据 层 。 





数据 元 数据 
图 2-10 DW2.0 的 另 一 重要 组 成 部 分 是 元 数据 


从 茶 种 意义 上 说 ，DW2.0 构架 的 元 数据 的 组 成 很 简单 一 一 至 少 在 概念 上 。 驻 留 在 
DW2.0 环境 下 的 元 数据 仅仅 用 来 描述 实际 的 DW2.0 数据 。 
图 2-11 说 明了 DW2.0 元 数据 观点 。 


值得 指出 的 是 ，DW2. 0 元 数据 需要 描述 结构 化 数据 及 非 结构 化 数据 。 诚 然 ， 元 数据 


的 典型 使 用 是 用 来 描述 结构 化 数据 。 但 非 结 构 化 数据 的 引入 ,使 得 元 数据 在 描述 非 结 构 
化 数据 方面 也 非常 有 用 。 


本 





图 2-11 简单 地 说 ， 元 数据 描述 位 于 DW2. 0 的 数据 体 的 一 个 或 多 个 方面 


事实 上 ， 结 构 化 与 非 结构 化 数据 整合 过 程 的 一 部 分 就 是 要 整合 DW2. 0 环境 中 这 两 种 
数据 类 型 的 元 数据 。 


2. 13 ”本 地 元 数据 


无 论 你 前 往 任何 会 议 听 取 发 言 ， 元 数据 的 呼声 都 不 绝 手 耳 。 事 实 上 ， 今 天 我 们 周围 有 
大 量 的 元 数据 。ETL 工具 中 有 元 数据 ， 数 据 库 目录 中 有 元 数据 ，BI:( 商 业 智 能 ) 工具 中 
有 元 数据 …… 元 数据 无 处 不 在 ! 但 是 ， 这 些 元 数据 都 是 正在 被 使 用 的 工具 所 专 有 的 ， 可 
称 其 为 “本 地 元 数据 ”， 而 缺少 的 是 企业 范围 的 元 数据 。 

DW2.0 需要 这 两 层 元 数据 一 一 本 地 的 和 企业 范围 的 。 图 2- 了 2 说 明了 因此 产生 的 
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DW2. 0 的 层次 结构 、 关 系 及 图 表 类 型 。 





企业 元 数 
主 数据 pe 
本 地 元 数据 Tm 
业务 元 数据 技术 元 数据 业务 元 数据 技术 元 数据 ， 
本 地 元 数据 上 


业务 元 数据 。 技术 元 数据 


图 2-12 元 数据 环境 的 结构 


图 2-12 表明 DW2. 0 结构 包括 若干 类 型 的 元 数据 和 一 个 整体 的 元 数据 结构 。DW2.0 
包括 主 元 数据 或 “参考 数据 " 。 存 在 企业 范围 的 元 数据 ， 也 有 本 地 元 数据 ， 束 像 给 定 工具 
中 的 那样 。 在 本 地 元 数据 中 ， 包 括 业 务 元 数据 和 技术 元 数据 。 

业务 元 数据 是 用 业务 语言 书写 的 适合 于 公司 业务 的 元 数据 。 技 术 元 数据 (大 多 数 人 
所 熟悉 的 那 种 ) 是 公司 的 技术 员 所 应 用 的 元 数据 。 

可 以 说 ， 现 在 大 多 数 的 企业 元 数据 与 技术 相关 ， 而 不 是 与 业务 相关 。 

DW2.0 在 第 一 代数 据 仓库 的 基础 上 提出 一 些 重要 的 改进 。DW2. 0 提出 对 数据 进入 数 
据 仓 库 后 的 数据 生命 周期 的 认识 、 数据 仓库 中 结构 化 与 非 结构 化 数据 的 概念 以 及 元 数据 
是 数据 仓库 的 一 个 重要 的 标准 的 组 成 部 分 的 思想 。 

从 第 一 代数 据 仓库 环境 到 DW2. 0 还 有 另 一 个 重要 变化 ， 即 数据 仓库 的 技术 基础 不 应 
以 不 易 改 变 的 技术 为 背景 的 观点 。 


2. 14 基础 技术 
图 2-13 显示 了 隐藏 于 每 一 个 数据 仓库 下 面 的 技术 基础 。 


30 z 锡 2 但 











近 线 区 











图 2-13 隐藏 于 DW2.0 下面 的 是 技术 基础 


技术 基础 是 任何 数据 仓库 的 一 个 重要 组 成 部 分 。 简 单 地 说 ,没有 一 个 潜在 的 技术 基 
础 ， 数 据 仓 库 就 不 能 存在 。 不 仅 对 于 DW2.0 是 这 样 ， 对 于 第 一 代数 据 仓 库 也 是 如 此 。 

但 是 还 有 一 个 问题 。 基 于 数据 仓库 的 技术 使 数据 仓库 根植 于 一 种 静止 状态 。 一 旦 数据 
仓库 深 植 于 其 技术 ， 它 就 很 难 改变 。 这 种 技术 往往 会 一 成 不 变 地 构建 数据 仓库 。 只 要 数 
据 仓库 的 需求 没有 改变 ， 这 就 不 是 一 个 问题 。 当 它 需 要 改变 或 更 新 时 ， 根 除 和 /或 改变 它 
的 技术 基础 这 一 极度 困难 的 任务 便 成 为 一 个 重要 的 问题 。 I 
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新 一 代 DW2. 0 方法 要 求 数据 仓库 不 能 一 建 到 底 。 为 了 考察 这 种 可 能 性 ， 妨 图 2-14 所 
不 ， 我 们 认为 一 个 数据 仓库 的 开发 是 通 
过 围 纸 业 务 需 求 的 逐步 改造 完成 的 。 





不 管 怎样 ， 数 据 仓 库 是 为 满足 一 系 人 
列 的 业务 需求 或 要 求 而 建立 的 。 现 在 的 
问题 是 ， 随 着 时 间 的 推移 ， 这 些 要 求 因 
许多 因素 而 改变 ， 例如: 
。 新 的 、 修 订 的 或 解释 的 立法 。 cn 
。 新 的 竞争 。 ”| 数据 仓库 
。 经 济 环境 。 Wy 
e 新 的 技术 。 图 2-14 数据 仓库 是 由 创建 它 时 的 业务 需求 决定 的 


2. 15 不断 变 化 的 业务 需求 


有 人 说 只 有 两 个 东西 永恒 不 变 ， 即 死亡 与 税收 。 但 这 里 应 该 有 第 三 个 业务 变化 。 
业务 变化 发 生 在 每 个 人 身上 ， 尽 管 程度 及 方式 不 同 。 图 2-15 展示 了 业务 需求 随时 间 变 化 
的 情况 。 








虽然 业务 变化 是 一 种 可 预测 的 持续 不 断 的 现实 ， 但 是 改变 业务 所 依据 的 技术 基础 设施 
部 是 另 一 回 事 。 出 于 多 种 原因 ， 支 撑 大 多 数 业务 的 技术 像 植 根 于 混凝土 _ 样 ， 改 恋 它 相 
当 困 难 。 


因此 ， 不 断 变 化 的 业务 与 不 变 的 技 
术 基 础 设施 是 不 相 一 致 的 。 图 2-16 中 > 人 
建立 了 一 个 满足 某 种 需求 的 数据 仓库 ， 。 


用 灰色 立方 体 来 表示 。 当 业务 的 需求 和 

条 件 变化 时 ， 它 们 应 该 变 成 灰色 圆圈 那 二 
样 的 形式 。 由 数据 所 描述 的 技术 基础 设 
施 原本 是 设计 用 来 支持 灰色 立方 体 表示 _ 
时 商业 需求 的 二 俱 在 业务 发 生 弯 化 后 二 ，: 图 206i -业务 名 业 寓 表 了 小 人 t 但 数据 仓库 没有 变 
这 些 技术 基础 设施 却 保持 不 变 。 

一 个 组 织 的 数据 仓库 是 其 技术 基础 设施 的 很 重要 的 并 且 往 往 是 对 业务 非常 关键 的 组 成 
部 分 。 现 在 的 问题 是 数据 仓库 不 容易 改变 ， 且 设计 时 是 为 了 满足 早期 的 业务 需求 ， 技 术 
芭 础 设施 一 点 点 地 变化 ， 终 有 一 天 达到 了 原本 的 要 求 ， 但 此 时 业务 却 又 改变 了 。 图 2-17 
描绘 了 这 种 永 无 止境 的 不 一 致 性 。 

因此 ， 这 让 数据 仓库 构架 师 陷入 了 两 难 地 步 。 而 DW2.0 解决 了 这 一 难题 ， 它 使 用 了 
以 动态 机 制 为 基础 的 技术 ， 可 以 很 容易 地 随 着 时 间 的 改变 而 改变 . 





3 





图 2-17 除非 数据 仓库 被 设置 在 一 个 动态 技术 基础 上 ， 否 则 它 只 是 不 断 反 映 昨 天 的 业务 需求 


2. 16 DW2. 0 中 的 数据 流 


用 于 摘 绘 DW2.0 的 人 简 图 显示 了 其 组 成 部 分 及 它们 彼 些 间 的 近似 关系 没有 显示 出 来 
的 是 在 DW2.0 环境 下 的 整体 的 数据 流 。 

虽然 几乎 所 有 的 数据 单元 都 有 可 能 流向 任何 一 个 地 方 ， 但 是 对 大 部 分 的 数据 来 说 ， 一 
般 都 会 得 出 一 个 其 在 DW2.0 中 可 预测 的 数据 流 。 

对 于 结构 化 处 理 ， 数 据 或 者 直接 通过 一 个 交互 环境 下 的 应 用 程序 进入 系统 ， 或 者 来 自 
于 DW2. 0 环境 外 部 的 一 个 应 用 程序 。 源 于 DW2. 0 外 部 应 用 程序 的 数据 会 先 通过 ETL 接 
口 加 工 ， 然 后 流入 交互 区 。 

结构 化 数据 进入 交互 区 后 不 久 就 会 流 天 整 奉 区 ， 在 这 里 数据 会 经 过 整合 并 且 转 化 为 企 
业 数据 。 从 整合 区 流出 的 数据 随后 会 流入 近 线 区 或 者 归档 区 。 近 线 区 的 数据 最 终 也 会 流 
入 归档 区 。 

非 结 构 化 数据 采取 近似 的 过 程 。 非 结构 化 数据 是 以 文件 或 者 某 些 其 他 格式 的 文本 数据 
开始 的 , 文本 数据 经 历 一 个 非 结构 化 数据 的 ETL 处 理 。 然 后 ， 非 结构 化 数据 会 进 信 
DW2. 0 环境 下 的 整合 区 。 

近 线 区 是 否 适 用 于 非 结 构 化 数据 仍 是 未 知 。 但 是 ， 如 果 需 要 非 结 构 化 环境 下 的 近 线 数 
据 ， 那 么 非 结 构 化 数据 是 可 以 流入 近 线 区 的 。 

在 任何 情况 下 ， 来 自 整合 区 或 者 近 线 区 (如 果 使 用 过 ) 的 数据 流 都 能 流入 非 结 构 化 
数据 的 归档 区 。 

图 2-18 描述 了 结构 化 数据 流 和 非 结 构 化 数据 流 经 过 DW2.0 环境 的 情况 。 


2. 17 数据 量 


太一 种 看 待 DW2.0 环境 中 结构 化 和 非 结构 化 数据 的 有 趣 方式 是 从 数据 量 的 角度 来 看 
的 ， 如 图 2-19 所 示 。 

DW2.0 环境 的 结构 化 部 分 的 交互 数据 通常 相对 较 少 ， 而 结构 化 整合 数据 量 则 有 相当 
大 的 增长 。 当 使 用 近 线 区 时 ， 它 必须 支持 的 结构 化 数据 量 会 进一步 增加 。 然 后 ， 当 归档 
区 比较 成 熟 后 ， 归 档 的 结构 化 数据 量 还 会 有 明显 的 增加 。 

相 比 之 下 ， 非 结构 化 环境 中 整个 生命 周期 区 的 数据 量 总 是 比 结构 化 环境 下 的 数据 量 更 
大 ， 增 长 率 也 更 高 。 据 估计 ， 在 一 些 典 型 的 企业 中 ， 非 结构 化 数据 是 结构 化 数据 的 4~5 
倍 。 就 算 把 无 用 的 数据 排除 在 外 ， 非 结构 化 的 数据 依然 是 结构 化 数据 的 2 ~3 倍 。 这 些 数 


DW2.0 廊 从 33 





图 2-18 DW2.0 环境 下 的 一 般 数 据 流 


据 量 的 比例 关系 也 能 从 图 2-19 中 看 出 。 
<. 18 实用 应 用 程序 


有 些 新 的 应 用 过 去 无 法 实现 ， 而 DW2. 0 提供 了 这 种 可 能 。DW2. 0 对 数据 仓库 的 结构 
化 和 非 结构 化 数据 的 支持 引发 了 一 些 将 这 两 种 数据 混合 起 来 的 有 趣 应 用 。 

如 图 2-20 所 示 ， 例 如 ， 当 电子 邮件 的 非 结 构 化 通信 在 数据 仓库 中 遇见 源 于 结构 化 数 
据 的 统计 数据 ， 有 可 能 一 一 第 一 次 一 一 创建 一 个 真正 的 360° 的 客户 视角 。 

尺 一 种 有 效 的 关于 非 结构 化 和 结构 化 数据 环境 相 结合 的 事例 是 医生 的 非 结 构 化 的 笔记 
满足 实验 室 的 测试 效果 。 这 样 ， 一 份 完 整 的 、 综 合 的 电子 病历 就 成 为 可 能 的 、 实 用 的 并 
且 易 于 实现 的 ， 如 图 .2-21 所 示 。 
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非 结 构 化 


图 2-20 
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一 个 真正 的 360° 客 户 视角 
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图 2-21 建立 个 人 医疗 保健 记录 


2. 19 ”DW2. 0 和 参照 完整 性 


参照 完整 性 在 数据 仓库 领域 起 重要 作用 已 经 有 很 长 一 段 时 间 了 。 参 照 完 整 性 要 求 居于 
一 个 数据 库 的 数据 也 必须 由 一 套 符合 逻辑 的 规则 所 控制 。 例 如 ， 如 果 医 疗程 序 是 分 娩 ， 
那么 病人 的 性 别 就 必须 是 女性 。 又 如 ， 如 果 有 购买 发 生 ， 那 么 必定 有 一 个 产品 或 服务 被 
购买 。 

DW2.0 方法 延伸 了 参照 完整 性 的 概念 。 在 DW2. 0 中 ， 有 外 部 参照 完整 性 和 内 部 参 
元 整 性 。 图 2-22 给 出 了 两 种 不 同类 型 的 参照 完整 性 。 


MA 










外 部 参照 完整 性 


y 内 部 参照 完整 性 





图 2-22 在 DW2.0 环境 中 有 两 种 形式 的 参照 完整 





如 图 2-22 所 示 ， 外 部 参照 完整 性 是 指数 据 从 一 个 区 进入 另 一 个 区 时 完整 性 的 保持 ， 
内 部 参照 完整 性 是 指数 据 在 一 个 区 内 的 完整 性 的 保持 。 


2. 20 ”DW2. 0 的 报告 


几乎 在 DW2. 0 环境 中 的 任何 地 方 都 可 能 出 现 报告 。 并非 所 有 报告 都 在 其- 一 处 运行 
而 是 各 种 不 同 的 报告 在 不 同 的 地 方 运 运行 。 
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图 2-23 给 出 了 一 些 在 交互 区 运行 的 报告 ， 其 他 的 报告 在 整合 区 运行 。 有 些 报告 利用 
来 自 DW2.0 环境 交互 区 和 整合 区 的 结构 化 和 非 结构 化 数据 的 组 合 来 运行 ， 其 他 报告 则 通 
过 DW2.0 环境 中 的 非 结构 化 部 分 运行 。 , 





非 结构 化 报告 


结构 化 与 非 结构 化 报告 
图 2-23 DW2.0 环境 有 不 同 种 类 的 报告 


2.21 总 结 


DW2.0 是 新 一 代数 据 仓 库 环 境 的 构架 。DW2.0 和 第 一 代数 据 仓 库 有 很 大 的 差别 。 四 
个 最 大 的 差别 如 下 : 

。 随 看 数据 进入 并 存储 于 数据 仓库 ， 产 生 了 对 数据 生命 周期 的 认识 。 

。 数据 仓库 中 包含 非 结构 化 数据 。 

。 DW2.0 环境 包含 元 数据 。 

。DW2.0 的 技术 基础 能 够 随 着 时 间 而 变化 。 

DW2.0 有 四 个 主要 的 生命 周期 区 : 

e。 交互 区 ， 数据 仓库 以 更 新 模式 在 交易 响应 时 间 水 平 下 完成 构建 。 

。 整合 区 ， 数 据 在 这 里 经 过 整合 并 完成 分 析 处 理 。 

。 近 线 区 ， 作 为 整合 区 数据 的 一 个 缓存 区 域 。 

。 归档 区 ， 存 放 访 问 概 率 显著 下 降 但 仍 有 可 能 被 访问 的 数据 。 

DW2. 0 既 包 含 结构 化 数据 ， 也 包含 非 结 构 化 数据 。 非 结构 化 文本 进入 数据 仓库 之 前 
必须 首先 经 过 一 个 整合 过 程 。 整 合 过 程 对 于 为 文本 分 析 提 供 非 结构 化 文本 非常 必要 。 如 
果 非 结构 化 文本 未 经 整合 ， 就 无 法 有 效 地 进行 文本 分 析 。 

为 非 结构 化 数据 进入 DW2.0 环境 做 准备 的 主要 任务 之 就 是 清除 “废话 *。 另 _ 项 
必 做 的 工作 就 是 术语 规范 化 。 文 本 必须 同时 拥有 特殊 的 和 一 般 的 两 种 参考 ， 以 便 成 功 地 
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进行 文本 分 析 。 
元 数据 是 DW2. 0 的 一 个 重要 组 成 部 分 ， 它 有 下 几 个 级 别 : 
。 企业 级 
。 本 地 级 
。 业务 级 
。 技术 级 
要 想 获 得 成 功 ，DW2.0 环境 必须 建立 在 可 随时 间 变 化 的 技术 基础 之 上 。 
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第 3 章 ”DW2.0 组 成 部 分 一 一 关于 个 同 区 


DW2. 0 由 四 个 不 同 的 区 组 成 : 交互 区 、 整 合 区 、 近 线 区 以 及 归档 区 。 一 般 会 根据 数 
据 仓库 的 大 小 和 使 用 阶段 来 确定 使 用 哪个 区 或 者 不 使 用 哪个 区 。 例 如 ， 在 数据 仓库 的 早 
期 不 可 能 存在 任何 归档 数据 ， 小 型 数据 仓库 也 许 根 本 没有 任何 近 线 人 存储。 并 且 ， 不 同 企 
业 中 DW2.0 数据 仓库 的 具体 实现 也 大 不 相同 。 

每 一 个 不 同 的 区 有 自己 的 一 些 考虑 因素 和 特性 。 实 际 上 ， 即 使 是 在 同一 个 区 内 ， 对 结 
构 化 数据 和 非 结 构 化 数据 的 考虑 因素 相差 也 很 大 。 

从 企业 的 角度 看 ， 通 常情 况 下 ， 不 同类 型 的 使 用 者 会 从 各 上 自 的 区 中 访问 和 分 析 数 据 。 
在 很 大 范围 内 ,办公室 人 员 会 使 用 交换 区 来 完成 日 党 工作 ; 整合 区 可 以 间接 地 文 持 不 同 
的 管理 层 一 一 从 公司 的 初级 管理 者 到 公司 董事 长 ; 分 析 团 队 经 常 使 用 近 线 区 ; 而 归档 区 则 
使 用 得 较 少 ， 或 被 那些 保险 统计 员 和 工程 人 员 使 用 。 

此 外 ， 还 存在 着 不 同 的 用 户 群 会 访问 和 使 用 DW2. 0 环境 的 不 同 区 。 


3.1 交互 区 


交互 区 是 数据 进入 DW2.0 环境 的 入 口 。 数 据 要 么 通过 处 于 DW2.0 外 部 的 ETL 应 用 
进入 DW2. 0， 要 么 是 作为 交互 区 内 部 应 用 事务 的 一 部 分 来 处 理 。 图 3-1 显示 数据 进入 交 
互 区 的 各 种 渠道 。 

正如 图 3-1 所 示 ， 交 互 区 可 能 包含 多 种 
应 用 ， 这 些 应 用 可 能 包含 也 可 能 不 包含 整 
合 数据 。 交 互 区 中 的 应 用 可 以 更 新 并 且 能 
够 具有 高 性 能 的 事务 处 理 ， 通 常 以 亚 秒 来 
计算 。 

通过 交互 区 的 事务 流 如 图 3-2 所 示 。 在 
图 3-2 中 可 以 看 到 ， 在 交互 区 存在 着 很 多 小 
型 的 事务 流 ， 这 等 同 于 某 公路 上 仅 允 许 保 
时 捷 和 法 拉 利 行 怠 ， 由 于 公路 上 没有 行驶 
缓慢 的 车 辆 ， 交 通 工 具 的 平均 速度 非常 快 ， 
所 以 这 个 系统 中 运行 的 任何 车 辆 的 响应 时 
间 也 都 相当 快 。 

交互 区 的 另 一 个 特征 是 由 该 区 采用 的 
技术 所 管理 的 数据 量 。 交 互 区 中 仅 有 适量 
的 数据 ， 如 图 3-3 所 示 。 

交互 区 中 运行 的 数据 从 几 GB 到 几 TB 图 3-1 交互 区 数据 输入 来 源 
不 等 。 相 对 于 DW2.0 环境 的 其 他 部 分 ， 交 
互 区 的 数据 量 是 比较 小 的 。 另 外 ， 交 互 区 中 的 数据 几乎 总 是 存储 在 磁盘 中 。 





类 于 不 局 区 39 


DW2. 0 组 成 部 分 









图 3-2 交互 区 内 部 的 事务 流 图 3-3 交互 区 中 只 管理 少量 数据 


由 于 交互 数据 存储 在 磁盘 上 ， 并 且 交 互 工作 任务 通常 是 由 较 小 且 快 速 的 事务 处 理 组 
成 ， 因 此 所 有 响应 时 间 非 常 快 。 图 3-4 显示 了 标准 情况 下 交互 区 的 良好 响应 时 间 。 

除了 能 获得 好 的 性 能 外 ， 交 互 区 运行 的 事务 处 理 还 能 更 新 数据 。 如 图 3-5 所 示 ， 交 互 
区 的 数据 可 以 被 添加 、 删 除 或 者 修改 。 





图 3-4 访问 交互 区 的 时 间 以 秒 计算 图 3-5 交互 区 中 的 处 理 可 以 更 新 数据 


区 互 环 境 的 一 个 特性 是 ， 由 于 数据 可 以 更 新 ， 所 以 任何 查询 只 在 查询 时 刻 有 效 ， 换 名 
证 说 ,假如 在 某 时 刻 执行 某 查询 ， 稍 后 执行 同样 的 查询 ， 那 么 这 两 次 查询 将 得 到 不 同 的 
年 淋 。 如 图 3-6 所 示 ， 在 10 :31AM 执行 一 个 查询 获知 账户 余额 为 $3000， 而 在 10: 53AM 
执行 同样 的 查询 时 账户 余额 为 $4500。 在 两 次 查询 之 间 有 人 已 向 账户 增加 储蓄 。 


10:31AM - $3000 


vyvvy 


10:53AM - $4500 





图 3-6 由 于 交互 环境 中 的 数据 可 以 更 新 ， 所 以 任何 访问 只 在 访问 的 时 刻 正确 


如 末 数 据 是 通过 外 部 应 用 程序 进入 交互 区 ， 那 么 数据 需 流 经 ETL 层 。 换 句 话 说 ， 如 
术 一 个 应 用 程序 位 于 交互 区 之 外 ， 且 要 使 这 个 应 用 程序 的 数据 进入 交互 区 ， 那 么 数据 必 
须 经 过 ETL 工具 的 处 理 。 图 3-7 显示 了 这 一 过 程 。 

未 单独 使 用 ETL 工具 进行 整合 处 理 的 数据 是 可 以 进入 交互 区 的 。 这 种 情况 下 ， 数 据 
在 进入 整合 区 的 时 候 被 整合 处 理 。 

交互 区 中 的 数据 可 能 参照 也 可 能 不 参照 对 其 设置 的 约束 。 使 不 使 用 参照 完整 性 完全 取 
决 于 运行 的 应 用 程序 。 图 3-8 说 明 交 互 区 可 能 包含 也 可 能 不 包含 可 选择 的 参照 完整 性 ， 

区 互 区 中 数据 的 访问 特征 是 访问 速度 非常 快 一 -以 亚 秒 为 单位 。 当 交互 区 的 数据 被 访 
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图 3-7” 当 数 据 进 入 交互 区 时 可 能 需要 转换 ， 数 据 通常 通过 ETL 层 的 通道 输入 


问 时 ， 有 时 希望 每 次 只 访问 其 中 的 一 部 分 记录 。 而 且 访 问 模式 应 该 是 随机 的 ， 即 一 次 交 
: 互 区 数据 的 访问 发 生 一 个 地 点 而 另 一 次 访问 则 发 生 在 另 一 个 完全 不 同 的 随机 产生 的 地 点 。 
交互 区 内 部 的 这 种 数据 访问 模式 决定 了 磁盘 存储 是 理想 的 。 

图 3-9 描述 交互 区 中 常见 的 迅速 、 随 机 的 数据 访问 模式 。 





| 区 


图 3-8 参照 完整 性 可 被 强加 在 交互 区 的 中 间 层 。 图 3-9 访问 模式 : a) 快 ; b) 随机 ; c) 少量 数据 


交互 区 内 部 仅 有 少量 的 历史 数据 。 在 交互 区 中 ， 典 型 的 历史 数据 都 是 一 天 甚至 仅仅 是 
儿 小 时 以 前 的 数据 。 一 般 情况 下 是 找 不 到 几 个 月 以 前 的 数据 的 ， 数 据 在 变 旧 之 前 就 已 经 
进入 整合 区 了 。 

图 3-10 展示 了 交互 区 没有 维持 太 多 的 历史 数据 的 概念 。 

交互 区 中 的 数据 的 粒度 是 非常 不 均匀 的 。 一 些 应 用 程序 使 用 的 数据 的 粒度 比较 小 ， 而 
为 外 一 些 应 用 程序 则 会 整合 数据 ,使 其 粒度 非常 天。 如 图 3-11 所 示 ， 针 对 应 用 数据 的 粒 
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度 问 题 ， 不 存在 一 个 一 致 性 的 设计 。 





图 3-10 交互 环境 中 仅 有 少量 的 历史 数据 。 图 3-11 交互 区 内 部 的 数据 粒度 依 应 用 程序 的 不 同 而 不 同 


数据 从 交互 区 进入 整合 区 。 如 果 数据 来 自 交互 区 外 部 ， 则 直接 进入 整合 区 。 如 果 数 所 
是 由 交互 区 内 应 用 程序 执行 时 产生 的 ， 那 么 数据 将 作为 程序 运行 的 副产品 被 收集 并 传 给 
整合 区 。 图 3-12 给 出 了 所 有 进入 或 者 通过 交互 区 的 数据 最 终 输入 整合 区 的 过 程 。 


3.2 整合 区 


整合 区 是 应 用 程序 数据 和 交易 数据 最 后 
汇总 为 企业 数据 的 场所 。 举 一 个 应 用 程序 数 
据 和 企业 数据 之 间 区 别 的 例子 ， 考 虑 三 个 收 
集 税收 信息 的 应 用 程序 A, B, C。 程 序 A 用 
欧元 统计 税收 信息 ， 程 序 B 用 美元 统计 信 
恩 ， 程 序 C 用 比索 统计 信息 。 当 这 些 应 用 程 
序 进 入 整合 区 时 ， 所 有 的 数据 都 将 经 过 转 
换 ， 使 用 一 种 通用 的 货币 符号 。 

把 操作 应 用 程序 数据 和 交互 交易 数据 转 
换 成 企业 数据 还 需要 做 很 多 转换 。 例 如 ， 假 
如 应 用 程序 A 进行 统计 时 按 每 个 月 为 31 天 、 
在 第 31 天 进行 结算 统计 ， 应 用 程序 B 按 自 
然 月 统计 ， 而 应 用 程序 C 则 以 企业 日 历 为 ， 
准 。 因 此 ， 来 自 应 用 程序 的 结算 报告 与 企业 图 3-12 ”数据 离开 交互 区 的 流向 
结算 报告 不 相符 ， 它 们 可 能 有 不 同 的 实际 结 8 
算 日 。 只 有 在 数据 进入 企业 整合 区 时 ， 将 这 三 个 结算 日 转化 通用 的 结算 日 ， 这 种 不 一 至 
才 会 得 以 解决 。 

刃 一 种 调和 是 对 数据 关键 字 的 调和 。 假 如 应 用 程序 A 有 一 种 关键 字 结 构 ， 应 用 程序 B 
有 为 外 一 种 关键 字 结 构 ， 而 应 用 程序 C 再 有 一 种 关键 字 结 构 。 当 来 自 这 些 应 用 程序 的 数 
据 进 入 到 整合 区 时 ， 关 键 字 会 被 转换 成 一 种 企业 通用 的 关键 字 结构 。 

还 有 一 个 例子 ， 应 用 程序 A 的 目 期 格式 是 YYMMDD ， 应 用 程序 B 的 日 期 格式 是 MM- 
DDYY， 应 用 程序 C 的 日 期 格式 是 YYYYMMDD。 当 日 期 被 输入 整合 区 时 ， 这 三 种 日 期 格 
式 都 被 转换 成 一 种 通用 的 格式 。 

除 此 之 外 ， 数 据 由 交互 区 进入 整合 区 时 还 存在 一 些 其 他 类 型 的 转换 的 例子 。 

整合 区 包含 多 种 不 同 的 结构 ， 以 下 几 种 类 型 的 数据 结构 都 可 以 在 整合 区 中 找到 . 

”面向 对 象 的 详细 数据 一 一 这 种 数据 类 型 下 ， 数 据 被 组 织 成 为 较 大 的 对 象 域 并 且 保 
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存 了 详细 细节 。 举 个 详细 数据 被 组 织 成 对 象 域 的 例子 ,假定 一 个 销售 交易 的 细 市 
数据 要 进入 整合 区 。 销 售 数据 中 ， 销 售 条 目 将 进入 销售 产品 对 象 域 ， 购 买 产品 的 
买 者 可 能 有 一 一 些 购买 喜好 信息 需要 进入 顾客 对 象 域 ， 而 销售 额 信 息 将 进入 销售 额 
对 和 象 域 。 

。 少量 概要 数据 一 一 在 整合 区 中 的 概要 数据 一 般 都 要 在 很 多 场合 使 用 ， 而 且 不 能 改 
变 。 举 例 来 说 ， 对 一 个 公共 贸易 公司 而 言 ， 基 季度 性 税收 状况 、 开 支 、 利 润 及 其 
aa (如 整合 区 ) ， 这 样 任何 需要 这 些 信 息 的 人 都 可 以 
访问 到 它 。 

。 持续 时 间 跨 度 的 数据 一 一 对 于 一 些 变 化 较 慢 的 数据 ， 将 它们 以 连续 时 间 跨 度 的 结 

构 来 存放 是 很 有 用 的 。 例 如 ， 连 续 时 间 跨 度 结构 可 用 于 记录 顾客 的 姓名 和 地 址 。 
除非 顾客 的 婚姻 状况 改变 ， 否 则 他 的 地 址 和 姓名 不 会 经 常 改 变 。 因 此 ， 在 整合 区 
中 以 连续 的 记录 保存 关于 顾客 的 信息 是 可 能 而 且 是 合理 的 。 

。 概要 数据 一 一 概要 数据 是 针对 一 个 对 象 从 各 种 渠道 收集 到 的 数据 。 一 个 顾客 记录 
就 是 一 个 概要 记录 的 简单 例子 。 概 要 记录 用 来 记录 顾客 的 信息 例如， 顾客 人 数 
统计 、 顾 客 最 后 一 次 的 购买 目录 、 顾 客 活 动 的 时 间 、 顾 客 消费 的 地 点 ， 等 等 。 从 
概要 记录 跟踪 顾客 的 信息 不 费 吹 灰 之 力 。 

整合 区 中 的 数据 是 在 对 交互 区 中 的 数据 通过 ETL 层 处 理 后 收集 得 到 的 。 在 进行 ETL 
处 理 时 ， 同 时 进行 数据 的 质量 处 理 。 人 简单 的 数据 质量 处 理 就 是 域 检查 和 范围 检查 。 

域 检查 的 一 个 例子 是 确保 性 别 符号 M ( 男 ，male)、F ( 女 ，female) 、U (未 知 , u 
known) 。 而 范围 检查 会 读 取 数据 ， 例 如 如 果 年 龄 大 于 150， 范围 检查 可 能 会 将 其 标记 为 
错误 。 

如 图 3-13 所 示 ， 数 据 经 由 数据 质量 编 
辑 锅 收集 、 整 合 、 传 递 后 ， 就 进入 整合 区 。 

如 图 3-14 所 示 ， 通 过 整合 区 的 工作 流 
是 非常 复杂 的 。 

图 3-14 显示 的 工作 流 就 像 一 条 跑 着 保 
时 捷 、 法 拉 利 和 许多 拖车 的 高 速 公 路 。 高 
速 公 路 上 和 车辆 的 速度 取决 于 它 前 面 的 车 辆 。 
一 辆 时 速 185mph 的 保时捷 如 果 在 一 辆 时 
速 25mph 的 拖车 后 面 行驶 ， 那 它 也 只 能 跑 
25mph。 我 们 很 容易 看 到 ， 这 种 工作 流 与 
交互 区 的 工作 流 相 比 ， 完 全 是 两 个 级 别 。 

整合 区 的 复杂 工作 流 也 有 其 合适 的 理 
由 。 有 些 人 需要 访问 大 量 数 据 ， 而 一 些 人 
只 访问 少量 的 数据 ， 就 这 么 简单 。 但 他 们 
都 想 从 整合 区 得 到 数据 ， 所 以 导致 非常 复 
杂 的 工作 流 。 

整合 区 通常 包括 大 量 的 数据 ， 如 图 到 
3-15 所 示 。 图 3-13 ”数据 怎样 进入 整合 度 
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图 3-14 工作 流 在 整合 区 内 的 运行 演示 








图 3-15 整合 区 管理 着 大 量 的 数据 


对 于 整合 区 为 什么 会 包含 大 量 的 数据 ， 有 一 些 非常 好 的 原因 ， 包 括 : 

。 数据 是 粒状 的 : 很 多 原子 单元 的 数据 被 收集 和 管理 。 

。 历史 数据 : 经 常 有 3 ~5 年 的 有 价值 的 数据 。 

。 数据 来 源 于 多 种 渠道 。 

将 这 三 个 原因 综合 起 来 ， 就 会 得 到 整合 区 中 包含 很 多 数据 的 结果 。 

整合 区 中 复杂 工作 流 的 不 同 带 来 所 希望 的 响应 时 间 的 不 同 ， 整 合 区 中 的 响应 时 间 从 
10 秘 到 更 长 时 间 不 等 。 不 一 致 的 原因 就 是 混合 的 工作 流 。 当 整合 区 中 进行 大 规模 数据 获 
取 工 作 时 ， 对 少量 数据 的 查询 可 能 被 暂停 或 者 延迟 。 另 一 方面 ， 当 没有 其 他 人 使 用 时 ， 
访问 整合 区 的 用 户 能 获得 较 好 的 响应 时 间 。 

控制 响应 时 间 的 一 个 方法 是 不 让 拖车 在 高 峰 时 间 上 路 一 一 在 8:00AM 至 3:30PM 时 间 段 
只 让 保时捷 和 法 拉 利 在 公路 上 行驶 。 如 果 这 种 方法 奏效 ， 那 么 就 限制 了 拖车 师傅 上 路 行驶 的 
合法 需求 。 换 名 话说， 通过 将 大 的 查询 任务 限制 在 空余 时 间 段 ， 那 些 需 要 在 高 峰 期 使 用 整合 
区 数据 的 较 小 任务 的 响应 时 间 就 能 够 得 到 提高 。 相 应 地 ， 大 型 查询 用 户 将 获得 较 差 的 响应 。 

全 此 可 以 看 出 ， 整 合 区 中 复杂 工作 流 各 种 各 样 。 图 3-16 描述 了 整合 区 响应 时 间 的 期 望 值 。 





图 3-16 访问 整合 环境 的 响应 时 间 从 10 秒 到 2 小 时 或 者 更 多 
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访问 整合 区 中 数据 的 事务 处 理 仅 限于 读 取 数 据 。 这 不 像 交 互 区 中 ， 数 据 可 以 添加 、 删 
除 、 修 改 ， 整 合 区 中 的 数据 只 能 访问 ， 不 能 更 新 。 图 3-17 说 明 整 合 区 中 的 数据 访问 。 





图 3-17 事务 处 理 仅 能 访问 整合 区 中 的 数据 


整合 区 中 的 数据 不 能 添加 、 删 除 、 修 改 并 不 意味 着 不 容许 数据 的 更 改 ， 而 是 可 以 以 一 
种 不 同 的 方式 完成 对 数据 的 更 改 。 

任何 时 候 对 整合 区 中 数据 的 更 改 都 是 通过 新 建 一 条 记录 来 实现 。 当 一 个 银行 账户 改 
变 ， 便 创建 一 条 新 记录 ; 一 个 人 的 地 址 改变 ， 也 创建 一 条 新 记录 ; 一 个 人 的 保险 内 容 改 
变 ， 同 样 也 创建 一 条 新 记录 ， 等 等 。 每 次 改变 都 通过 创建 一 条 新 记录 来 完成 ， 这 样 数据 
变化 的 历史 跟踪 记录 也 被 保存 下 来 。 男 外 ,数值 被 正确 地 放置 在 整合 区 中 后 就 永远 不 能 
修改 。 记 录 可 能 被 发 送 到 近 线 存储 和 归档 存储 中 ,但 一 经 正确 创建 后 ， 就 不 能 更 改 。 这 
意味 着 改变 的 处 理 方式 与 交互 区 中 的 处 理 方式 有 很 大 不 同 ， 在 交互 区 中 ， 对 一 条 记录 的 
更 改 始终 在 进行 。 

图 3-18 说 明 整 合 区 中 更 改 是 怎样 被 记录 的 。 
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图 3-18 ” 当 整 合 区 中 的 数值 改变 时 ， 将 创建 并 存储 修改 记录 。 因 此 存在 修改 的 历史 记录 


整合 区 中 完成 的 对 数据 的 历史 修改 的 跟踪 有 一 个 有 趣 的 作用 : 一 旦 提出 问题 时 ,将 总 
会 得 到 同样 的 答案 ， 即 使 过 段 时 间 再 提出 同样 的 问题 。 为 了 说 明 数 据 的 稳定 性 ， 假 设 在 
今天 早上 10 :31AM 某 银行 家 想 知道 该 银行 从 年 初 至 今 的 财政 收入 ， 整 合 区 中 的 返回 值 为 
$3000。 出 于 一 些 原因 ， 该 银行 家 在 10:53AM 时 进行 同样 的 查询 ， 尽 管 10:31AM 银行 的 
收入 在 银行 的 操作 和 交互 应 用 中 已 经 发 生 改 变 , 但 此 时 查询 结果 仍然 没有 改变 ， 银 行家 
仍然 会 得 到 相同 的 回答 一 一 $3000。 

图 3-19 说 明 整 合 区 中 的 处 理 所 特有 的 数据 稳定 性 。 

图 3-20 强调 当 数 据 进 入 整合 区 时 没有 例外 ， 都 是 以 单 向 进入 且 有 和 较 严 格 的 控制 路 线 。 

整合 区 中 有 两 种 相关 的 参照 完整 性 。 第 一 种 是 区 间 参 照 完 整 性 ， 区 间 参 照 完整 性 指 的 
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图 3-19 整合 环境 中 的 数据 不 能 更 新 ， 任 何 时 候 访问 的 任何 值 都 是 正确 的 


是 数据 通过 各 区 时 的 完整 性 。 也 就 是 说 ， 当 数据 从 交互 区 进入 整合 区 时 ， 数 据 必 须 有 可 
辨别 的 源 和 目的 以 确保 数据 不 会 丢失 。 交 互 区 中 如 果 没 有 相应 的 数据 输入 则 整合 区 中 也 
没有 数据 输入 一 一 反 过 来 也 一 样 ， 整 合 区 中 没有 相应 的 数据 输入 ， 则 交互 区 中 也 没有 数据 
输入 。 

然而 ， 并 不 会 仅 因 每 个 区 有 相 
对 应 的 数据 入 口 ， 就 意味 着 所 有 的 
输入 值 就 都 应 该 是 一 致 的 。 一 个 输 
ee ie 
输入 的 值 可 能 用 美元 表示 ， 两 个 数 
据 元 素 没 有 相 一 致 的 值 也 不 意味 着 
它们 就 不 是 整合 区 相对 应 的 输入 。 

整合 区 中 的 男 一 种 参照 完整 性 
是 相同 区 内 的 参照 完整 性 ， 这 种 完 
整 性 意味 着 同一 区 内 部 数据 元 素 之 
间 可 能 存在 某 种 关系 。 如 图 3-21 所 
未 ， 在 整合 区 中 ， 各 种 参照 完整 性 
都 是 可 能 存在 的 。 

与 交互 区 相 比 ， 整 合 区 中 数据 
的 访问 模式 有 所 不 同 ， 对 数据 的 调 
用 较 少 ， 但 每 次 调用 常 需要 更 多 的 
数据 。 图 3-22 说 明了 对 于 整合 区 特 dd 2 
定 的 访问 模式 。 这 种 数据 访问 模式 图 3-20 数据 进入 整 名 模块 时 通常 先 经 过 ETL 处 理 后 在 综 宗 全 
常常 伴随 着 由 从 小 到 大 的 各 种 数据 提取 请 求 组 成 的 复杂 工作 流 。 

整合 区 和 交互 区 的 另 一 个 区 别 与 不 同 环境 中 历史 数据 的 容量 有 关 。 整 合 区 中 有 大 量 的 
历史 数据 ， 在 其 中 找到 3 ~5 年 的 有 价值 的 历史 数据 是 很 正常 的 事情 。 相 反 ， 在 交互 区 
中 ， 找 到 多 于 30 天 的 有 价值 的 数据 都 非常 困难 。 

图 3-23 展示 了 整合 区 中 大 量 的 历史 数据 。 

数据 粒度 也 是 整合 区 和 交互 区 之 间 的 另 一 个 主要 区 别 。 交 互 区 中 有 着 不 同 的 粒度 级 ， 
一 些 数据 是 粒状 的 ， 而 一 些 不 是 。 另 一 方面 ， 整 合 区 包含 公司 中 最 小 粒度 级 的 数据 ， 整 
合 区 中 的 数据 非常 小 而 且 是 原子 的 。 整 合 区 支持 各 种 形式 的 DSS ( Decision Support Systems) 








图 3-22 





访问 模式 : a) 严格 速度 ; b) 持续 随机 ; c) 大 量 数据 





图 3-23 整合 环境 中 有 大 量 的 历史 数据 
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处 理 ， 每 个 DSS 处 理 对 数据 都 有 自己 的 需求 。 因 此 ， 整 合 层次 上 粒度 级 越 小 ， 所 支持 的 
DSS 处 理 的 形式 就 越 多 。 换 句 话 说 ， 当 整合 区 中 数据 粒度 级 变 大 时 ”可 支持 的 DSS 处 理 
的 形式 则 越 少 。 

图 3-24 描述 了 整合 区 中 对 低 粒度 级 的 需求 。 





图 3-24 整合 区 中 的 数据 粒度 和 从 信息 系统 环境 中 得 到 的 一 样 小 


数据 一 旦 离开 整合 区 ， 就 可 能 进入 近 线 区 或 者 归档 区 (图 3-25) 。 当 数据 很 多 上 且 有 组 
存 需 求 时 ， 数 据 便 进入 近 线 区 。 当 数据 的 访问 概率 显著 降低 时 ， 数 据 进 入 归档 区 。 通 常 ， 
随 着 数据 变 陈旧 它 将 进入 归档 区 ,但 并 不 总 是 这 样 。 





图 3-25 数据 离开 整合 区 后 的 流向 


人 


3.3 近 线 区 


近 线 区 是 整合 区 的 一 种 缓存 形式 。 近 线 区 可 能 用 于 缓存 也 可 能 不 用 于 缓存 ， 这 完全 取 
决 于 数据 仓库 的 性 质 。 当 数据 仓库 的 整合 区 很 大 时 ， 通 过 近 线 区 缓存 数据 来 降低 整合 区 
的 工作 量 就 很 有 意义 。 当 整合 区 中 的 数据 不 是 很 多 时 ,使 用 近 线 区 可 能 就 不 是 很 必要 。 

近 线 区 的 使 用 出 于 两 个 原因 一 一 成 本 和 性 能 。 近 线 存储 成 本 大 大 小 于 磁盘 存储 。 因 
此 ， 如 果 不 能 负担 得 起 用 于 整合 区 的 磁盘 存储 硬件 的 昂贵 成 本 ， 那 么 整合 区 中 的 大 量 数 
据 可 以 被 下 载 到 近 线 区 中 用 以 削减 大 量 的 成 本 。 

通过 将 访问 率 较 低 的 数据 下 载 到 近 线 区 可 以 大 大 提升 性 能 。 因 为 只 有 将 那些 很 少 访问 
的 数据 送信 近 线 区 ， 整 合 区 磁盘 存储 器 中 保留 的 数据 才能 避免 由 “意外 ”的 大 量 不 准备 
使 用 的 数据 所 带 来 的 开销 。 

近 线 存储 是 将 数据 连续 地 存储 在 自动 管理 的 磁盘 上 。 近 线 存储 用 于 大 量 数据 的 廉价 存 
储 。 数 据 在 存 人 近 线 存储 器 后 仍然 可 以 通过 电子 方式 获取 ， 但 存储 代价 相 较 于 将 整合 区 
的 全 部 数据 存 人 磁盘 存储 器 明显 减少 。 

图 3-26 摘 述 了 来 自 于 整合 区 的 近 线 区 数据 。 

数据 被 置 于 近 线 存储 后 ， 它 将 像 任 何 
其 他 环境 一 样 服从 于 工作 流 。 近 线 存 储 的 
典型 工作 流 不 需要 较 多 的 数据 访问 活动 ， 
原因 是 仅 当 数据 的 访问 概率 很 小 的 时 候 才 
被 放 和 人 近 线 存储 中 。 实 际 上 ， 如 果 对 近 线 
数据 的 某 些 特定 类 型 进行 频繁 访问 ， 那 么 
这 部 分 数据 需要 移 回 到 整合 区 。 

在 极 少 的 需要 访问 近 线 数据 的 情况 下 ， 
或 对 一 串 记录 进行 访问 ， 或 仅 对 一 条 记录 
进行 访问 。 图 3-27 描述 了 近 线 存储 的 典型 
工作 流 。 

一 个 急切 的 问题 是 数据 怎样 从 整合 区 
进入 近 线 区 。 一 般 数据 在 到 达 其 所 处 位 置 
后 有 两 种 基本 的 方式 来 对 其 进行 管理 : 手 
动 方式 和 自动 方式 。 

当 手 动 管 理 数 据 时 ， 有 一 个 管理 员 ， 2 
他 监督 整合 区 中 数据 的 使 用 或 接收 数据 移 图 3-26 ” 近 线 区 中 的 数据 来 自 整合 区 
动 的 请 求 ， 然 后 把 数据 从 整合 区 移动 到 近 
线 区 或 从 近 线 区 移动 到 整合 区 。 

为 外 一 种 可 选择 的 数据 移动 管理 是 通 
过 CMSM 一 一 一 个 跨 媒 体 存储 管理 器 来 实现 
的 。CMSM 位 于 整合 区 和 近 线 区 之 间 ， 并 


自动 管理 从 一 个 环境 到 下 一 个 环境 的 数据 | 
移动 。 图 3-27 近 线 区 内 工作 流 演示 
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CMSM 可 以 一 种 透明 性 模式 运行 。 透 明 模 式 下 的 CMSM 检查 进入 系统 的 请 求 ， 查 看 是 
否 有 查询 近 线 存储 管理 数据 的 请 求 。 当 一 个 需要 查询 近 线 存储 管理 数据 的 请 求 到 达 ， 
CMSM 将 请 求 事务 排队 ， 并 去 查找 所 请 求 的 数据 ， 再 把 数据 下 载 到 磁盘 存储 上 ， 然 后 将 事 
务 出 队 并 执行 事务 。 开 始 执行 后 ， 事 务 就 能 够 找到 所 有 它 所 需要 的 数据 ， 这 些 数 据 由 
CMSM 放 到 磁盘 中 。 

CMSM 还 有 一 些 其 他 的 操作 方式 ， 上 面 所 述 的 只 是 多 种 操作 方式 中 的 一 种 。 

图 3-28 显示 了 整合 区 与 近 线 区 之 间 的 接口 。 

通常 ， 近 线 区 中 的 数据 是 整合 区 中 数据 结构 和 格式 的 镜像 。 近 线 区 中 数据 的 设计 、 
DBMS 以 及 DBMS 的 发 布 与 整合 区 中 相应 的 模块 是 一 致 的 。 整 合 环境 和 近 线 环境 的 数据 之 
所 以 极端 相似 ， 一 个 非常 重要 的 原因 是 数据 在 两 个 环境 中 需要 有 效 地 交换 。 显 而 易 见 ， 
数据 需要 从 整合 环境 移动 到 近 线 环境 ,但 再 从 近 线 环境 移 回 到 整合 环境 就 不 是 很 常见 了 ， 
只 有 对 数据 的 访问 概率 上 升 时 才 把 数据 从 近 线 环境 移 回 整合 环境 。 因 此 当 数 据 的 格式 、 
结构 、 技 术 一 致 的 时 候 ， 从 近 线 环境 移动 到 整合 环境 很 容易 ， 但 若 缺 少 其 中 任何 一 项 时 ， 
这 种 移动 都 会 变 得 相当 困难 。 

图 3-29 给 出 了 近 线 环境 和 整合 环境 中 结构 、 格 式 及 技术 都 一 致 的 数据 。 












图 3-29 ”结构 上 ， 近 线 环境 是 整合 环境 的 一 
两 种 必要 方式 个 拷贝 
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近 线 环境 的 一 个 主要 优势 是 它 能 管理 超大 容量 的 数据 ， 远 远 超 过 交互 环境 和 整合 环 
境 ， 在 近 线 环境 中 ， 管 理 几 百 TB 的 数据 都 是 可 能 的 。 
图 3-30 显示 了 近 线 环境 管理 大 量 数 据 的 能 力 。 





OO@ 
@@ 

全 全 
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图 3-30” 近 线 环 境 可 以 管理 巨大 容量 的 数据 


离开 近 线 区 以 后 ， 数 据 一 般 进 入 归档 区 ( Archival) 。 值 得 注意 的 是 ， 归 档 区 中 的 数据 
可 能 直接 从 整合 区 中 得 来 而 不 经 过 近 线 区 。 然 而 ， 如 果 数 据 已 经 进入 近 线 区 ,那么 一 般 
情况 下 就 会 从 近 线 区 进入 归档 区 。 

当 数 据 的 访问 概率 急剧 下 降 时 就 将 其 移动 到 归档 区 中 。 

图 3-31 描述 了 数据 从 近 线 区 到 归档 区 的 移动 。 





图 3-31 数据 离开 近 线 区 后 的 流向 


3.4 归档 区 
归档 区 是 用 来 存放 访问 概率 变 得 非常 小 的 数据 的 区 域 。 有 了 时候， 数据 被 存放 在 归档 区 
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并 非 因 其 被 访问 概率 ， 而 是 由 于 一 些 法 律 的 原因 ， 因 为 有 时 数据 的 存储 是 由 政府 长 期 授 
权 的 。 

过 去 ， 将 数据 进行 归档 常常 是 一 条 单行 道 ， 进 入 档案 的 数据 变 得 不 可 访问 。 当 工作 人 
员 去 打开 一 盒 用 于 归档 的 磁带 时 ， 常 常会 从 塑料 容器 上 掉 下 氧化 物 碎 导 来 ， 这 当然 意味 
看 磁 市 已 经 分 解 ， 也 就 意味 着 因为 无 法 读 取 ， 磁 带 变 得 一 无 是 处 。 

如 今 当 数 据 被 存放 在 归档 存储 中 时 ， 这 些 数据 必须 在 未 来 的 某 个 时 间 点 是 可 读 取 的 ， 
否则 归档 环境 就 是 一 种 对 时 间 和 金钱 的 浪费 。 

从 许多 方面 来 说 ， 构 建 一 个 归档 环境 就 像 构 造 一 个 时 代 文 物 密 藏 器 。 人 们 把 各 种 各 样 
的 东西 存放 在 时 代 文 物 密 藏 器 中 ， 谁 也 不 知道 这 个 密 藏 器 会 在 什么 时 候 被 谁 打开 。 这 个 
比喻 同样 也 可 以 用 于 存放 在 归档 环境 中 的 数据 上 。 归 档 环 境 填 满 数据 后 ， 未 来 需要 数据 
的 用 户 是 未 知 的 ， 需 要 数据 的 时 刻 也 是 未 知 的 。 

因此 ， 归 档 环境 需要 组 织 数 据 ， 以 便 数据 在 “时 代 文 物 密 藏 器 ”中 能 够 完全 自给 
自足 。 

图 3-32 概括 了 数据 如 何 从 整合 环境 或 者 近 线 环境 进入 归档 环境 。 





3-32 ”归档 区 的 数据 可 以 来 自 整 合 区 或 近 线 区 


与 归档 环境 相关 的 工作 流 是 很 不 同 寻 常 的 。 很 长 一 段 时 间 
对 于 归档 数据 没有 任何 访问 ， 然 后 有 一 天 对 于 数据 有 了 需求 
一 个 长 的 完整 的 连续 数据 串 。 

对 于 归档 数据 来 说 最 大 的 问题 通常 是 如 何 找到 需要 的 数据 。 其 他 环境 的 重点 在 于 保证 





数 月 甚至 数 年 一 一 常常 
或 者 是 几 条 记录 ， 或 者 是 
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亚 秒 级 的 响应 时 间 ， 而 对 于 归档 数据 来 说 问题 却 是 能 否 找 到 需要 的 数据 。 通 常 有 大 量 的 
归档 数据 ， 并 且 搜 索 数据 的 基本 准则 是 模糊 不 清 的 ， 于 是 在 归档 环境 中 查找 数据 就 像 在 
干草 堆 中 寻找 谚语 中 说 的 那 根 针 一 样 困难 。 

图 3-33 描述 了 与 归档 环境 相关 的 工作 流 。 





图 3-33 工作 流 进 入 归档 区 演示 


归档 区 的 数据 量 是 巨大 的 。 随 春 时 间 的 流逝 ， 人 们 和 硕 望 在 归档 区 中 存储 比 其 他 任何 地 
方 部 多 的 数据 。 在 数据 仓库 生命 周期 的 初期 档案 中 存放 的 数据 量 通常 是 很 小 的 。 但 是 
随 独 时 间 的 推移 ， 当 数据 仓库 变 得 成 熟 时 ， 它 的 归档 数据 会 累积 、 发 展 ， 进 而 包含 海量 
数据 。 

图 3-34 展示 了 能 在 归档 区 中 找到 的 大 量 数据 。 





@@@@ 
@@@@ 


图 3-34 归档 环境 会 管理 大 量 的 数据 


访问 归档 环境 的 啊 应 时 间 是 由 若干 单位 时 间 来 衡量 的 ， 这 些 单 位 时 间 是 指 截止 到 在 
DW2.0 结构 中 的 其 他 位 置 再 也 没有 发 现 所 需 数据 所 花费 的 时 间 。 在 归档 环境 中 预期 花费 
几 天 甚至 儿 周 的 时 间 才 找到 数据 是 很 常见 的 ， 响 应 时 间 当 然 取决 于 归档 环境 中 的 数据 量 
大 小 、 数 据 索 引 是 否 合理 、 搜 索 的 准则 以 及 存储 归档 数据 的 技术 。 有 时 一 次 搜索 也 许 非 
和 快 ， 但 是 我 们 对 于 检索 数据 的 普遍 期 望 最 好 不 要 设 定 得 太 高 。 

图 3-35 描述 了 在 归档 环境 中 检索 数据 的 期 望 时 间 。 








图 3-35 访问 归档 环境 是 以 小 时 其 至 是 天 来 衡量 的 
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有 了 时， 当 完 成 一 次 搜索 时 ， 数 据 可 能 会 从 归档 环境 移动 到 整合 区 。 这 种 归档 数据 的 复 
原 表 明 我 们 有 理由 怀疑 这 时 大 量 分 析 和 访问 需要 数据 。 在 大 多 数 情 况 下 ， 进 入 归档 环境 
实在 是 一 段 痛苦 的 经 历 。 通 过 把 使 用 频繁 的 归档 数据 移 回 整合 区 可 以 缓解 不 得 不 再 次 进 
入 归档 环境 进行 检索 所 带 来 的 经 常 性 痛苦 。 

图 3-36 展示 了 数据 可 以 从 归档 区 移入 整合 区 进行 重新 存储 。 





图 3-36 有 时 数据 会 从 归档 环境 移 人 整合 环境 


使 用 归档 数据 所 能 做 的 最 有 用 的 事 之 一 就 是 创建 被 动 索引 。 归 档 环 境 通 常 只 是 一 动 不 
动 地 停 在 那里 ,偶尔 会 有 些 人 往 归 档 环境 加 载 更 多 数据 ,但 是 绝 大 多 数 情况 下 ， 归 档 环 
境 基 本 上 是 缺乏 活力 的 。 

然后 有 一 天 ， 某 个 人 需要 归档 环境 里 的 数据 ， 系 统 会 突然 通过 大 量 的 数据 。 在 归档 环 
境 中 ， 会 出 现 一 段 特 有 的 长 时 间 的 静止 ， 紧 随 其 后 的 是 短 时 间 的 剧烈 的 大 量 活动 。 就 算 
在 归档 环境 中 找到 数据 ， 这 次 搜索 也 始终 是 不 太 可 靠 的 。 

这 些 情况 下 应 该 创建 和 使 用 被 动 索 引 。 

在 通常 环境 下 ， 索 引 是 用 来 使 用 已 知 的 要 求 对 数据 进行 快速 访问 的 。 但 是 对 于 归档 数 
据 来 说 ， 几 乎 没有 可 预知 的 访问 路 径 。 因 此 ， 只 有 当归 档 区 的 数据 只 是 呆 在 那里 的 时 候 ， 
基于 可 能 的 访问 路 径 来 创建 索引 才 是 很 好 地 利用 时 间 。 创 建 好 被 动 索 引 后， 搜索 归档 区 
时 凭借 一 点 运气 ， 要 寻找 的 数据 能 够 快速 容易 地 找到 。 只 有 在 所 查找 的 数据 还 没有 建立 
被 动 索引 时 ， 才 需要 对 数据 进行 完整 的 顺序 搜索 。 

图 3-37 描绘 了 为 可 能 到 达 和 通过 归档 区 的 路 径 创 建 被 动 索引 。 

当 数 据 被 送 往 归档 区 时 ， 数 据 在 整合 环境 或 近 线 环境 所 具有 的 结构 是 否 能 够 被 适当 地 
保持 下 来 是 不 确定 的 。 保 持 或 者 不 保持 数据 结构 都 有 各 自 的 优 缺 点 。 保 持 经 过 归档 区 的 
数据 的 结构 的 一 个 优点 是 实现 起 来 很 容易 。 数 据 简 单 地 以 一 种 格式 读 人 ， 然 后 以 同样 的 
格式 写 出 。 这 大 概 就 像 获取 数据 一 样 容易 。 但 也 有 一 些 原因 使 得 这 种 方法 也 许 不 是 最 佳 
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图 3-37 归档 数据 放 在 那里 并 不 经 常 使 用 ， 因 此 利用 空闲 时 间 创 建 “被动 索 引 ” 是 个 不 错 的 主意 


的 ， 其 中 一 个 原因 就 是 一 旦 数据 被 归档 ， 那 么 它们 也 许 就 不 会 以 与 整合 环境 相同 的 方式 
被 使 用 。 对 于 归档 区 的 数据 来 说 ， 整 合 区 中 数据 的 格式 和 结构 也 许 根本 就 不 合适 。 

为 外 ， 整 合 区 的 数据 通常 与 使 用 它 的 某 一 特定 版 本 的 软件 是 兼容 的 。 到 归档 数据 被 从 
归档 环境 中 检索 出 来 时 ， 使 用 它们 的 这 个 版 本 的 软件 可 能 早已 不 存在 了 。 因 此 ， 把 归档 
区 的 数据 结构 设计 得 与 整合 区 一 样 是 不 明智 的 。 

当 数 据 存 放 在 归档 区 的 时 候 ， 它 们 能 够 而 且 常常 应 该 被 分 成 更 细微 的 部 分 。 这 样 当 搜 
索 或 者 访问 它们 的 时 候 会 更 容易 查询 。 

为 外 ,没有 任何 理由 不 允许 数据 以 两 种 格式 存放 在 归档 环境 一 一 一 种 是 整合 区 中 的 源 
格式 ， 另 一 种 是 更 为 简单 通用 的 格式 。 

图 3-38 描述 了 归档 区 中 数据 的 双重 结构 。 





图 3-38” 当 数据 被 送 入 归档 环境 ， 数 据 的 结构 也 许 会 被 保留 下 来 ， 数 据 也 许 会 被 重 构 ， 或 者 两 者 都 发 生 
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归档 区 中 的 数据 需要 尽 可 能 避免 受 软 件 版 本 的 限制 和 约束 。 
如 图 3-39 所 描述 的 那样 ， 对 于 从 归档 区 中 找到 的 数据 ， 有 一 种 可 以 预知 的 访问 模式 。 








二 ~ 图 


图 3-39 ”归档 环境 的 访问 模式 : a) 非常 不 频繁 的 访问 ; 上) 大 多 数 访问 都 是 针对 大 量 的 顺序 数据 
的 ; e) 只 有 极 少 的 针对 特定 数据 的 访问 


与 梢 区 的 数据 很 少 被 访问 ， 而 且 访 问 的 时 候 ， 通 常情 况 下 整个 归档 数据 组 都 会 被 访问 
到 ， 检 索 归 档 环境 中 的 单条 记录 的 情况 极为 罕见 。 

访问 归档 环境 中 的 数据 很 有 趣 的 一 方面 是 ， 通 常 ， 数 据 需 要 基于 模糊 的 字段 或 数据 人 
来 定位 。 偶 尔 会 出 现 以 “标准 ” 码 和 标识 符 访问 数据 的 需求 ， 但 经 常 有 基于 非常 不 正规 
的 数据 类 型 的 访问 。 

如 图 3-40 所 描述 的 那样 ， 由 于 归档 数据 的 数量 和 归档 数据 需要 长 时 间 保留 的 事实 ， 
归档 区 并 不 具备 引用 完整 性 约束 。 





图 3-40 通常 情况 下 不 强制 要 求 归档 区 具有 引用 完整 性 


信 们 常常 以 查找 任意 相关 数据 并 将 其 移动 到 整合 区 或 探索 程序 中 为 目的 来 搜索 归档 
区 。 但 是 有 时 归档 区 进行 自 搜索 也 是 很 有 意义 的 。 换 句 话说 ， 归 档 区 可 以 被 当做 决策 的 
依据 来 使 用 。 然 而 ， 这 种 方法 的 缺点 包括 但 是 不 局 限于 以 下 几 点 ， 

。 在 归档 区 中 确实 有 大 量 的 数据 。 

。 归档 区 中 的 数据 需要 被 顺序 搜索 。 

。 没有 为 待 完成 的 搜索 提供 有 用 的 索引 。 

进一步 说 ， 与 其 他 区 域 相 比 ， 可 供 归 档 区 使 用 的 数据 查询 和 分 析 技术 很 有 限 ， 
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但 是 ， 有 时 可 以 通过 一 种 与 操作 系统 无 关 的 方法 访问 和 分 析 归 档 区 。 图 3-41 描述 了 
这 种 能 力 。 








3-41 “归档 环境 始终 可 能 对 自己 进行 顺序 搜索 和 处 理 


3.5 非 结构 化 处 理 


DW2. 0 环境 主要 有 两 个 方面 或 领域 。 一 半 的 DW2. 0 数据 结构 格式 是 为 结构 化 的 数据 
设计 的 ， 到 目前 为 止 它 也 是 这 一 章 讨论 的 主题 。DW2. 0 环境 的 另 一 半 是 非 结 构 化 数据 的 
领域 。 

虽然 DW2. 0 的 四 个 分 区 都 适用 于 DW2. 0 环境 的 非 结 构 化 数据 ,但 是 与 DW2.0 的 结 
构 化 方面 相 比 ， 每 一 个 区 在 非 结 构 化 领域 都 呈现 出 非常 不 同 的 特征 。 对 于 非 结构 化 的 
DW2. 0 数据 领域 来 说 ， 甚 至 不 能 确定 所 有 这 四 个 区 是 否 都 有 用 。 

DW2.0 的 非 结构 化 整合 区 的 输入 来 源 于 文档 和 其 他 格式 的 文本 。 非 结构 化 数据 输入 
可 能 来 自 几 乎 任何 地 方 : 可 能 来 自 医 疗 记录 、 安 全 报告 、 合 同 、 电 子 表格 、 检 验 报 告 ， 
等 等 。 文 本 可 以 是 任何 语言 ， 可 能 相关 也 可 能 不 相关 。 

为 了 把 非 结构 化 数据 装 入 DW2. 0 数据 仓库 ， 非 结构 化 文本 首先 以 电子 格式 聚集 在 一 
起 ， 然 后 经 过 专 为 非 结构 化 数据 设计 的 ETL 处 理 ， 文 本 被 分 割 成 适用 于 分 析 处 理 的 文本 
块 。 为 了 适合 文本 分 析 ， 非 结构 化 文本 必须 经 历 的 过 程 包 括 : 

。 无 用 词 消 除 

。 分 词 

。 特殊 /通用 分 析 

。 可 蔡 换 拼写 分 析 

。 分 组 数据 的 分 类 

通过 这 些 严 格 的 过 程 后 ， 文 本 就 为 分 析 处 理 做 好 了 准备 。 

在 非 结 构 化 整合 环境 中 有 几 种 类 型 的 数据 ， 其 中 一 些 如 下 : 

e。 内 部 和 外 部 分 类 : 一 个 分 类 就 是 一 组 具有 相互 联系 的 词汇 。 非 结构 化 文本 环境 既 

包括 内 部 (有 时 叫做 “主题 ") 创建 的 分 类 ， 也 包括 可 来 自 几乎 任何 地 方 的 外 部 
分 类 。 
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。 被 捕获 、 被 编辑 的 文本 : 被 捕获 、 被 编辑 的 文本 是 指 那些 通过 了 非 结构 化 的 ETL 
处 理 并 且 被 放 入 数据 库 

。 链接 : 链接 是 那些 联系 非 结构 化 数据 和 结构 化 数据 的 数据 。 

。 简单 指针 : 非 结 构 化 的 数据 文本 偶尔 会 驻 留 在 其 他 环境 中 ， 只 有 引用 它 的 索引 才 
能 进入 非 结构 化 的 交互 数据 仓库 中 。 

图 3-42 描述 了 通过 文本 ETL 并 且 进入 非 结构 化 整合 环境 的 文本 。 
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图 3-42” 非 结构 化 整合 层 的 输入 来 自 哪 里 


非 结构 化 的 整合 环境 有 着 与 其 他 每 一 个 DW2. 0 分 区 都 相似 的 工作 流 。 图 3-43 描述 了 
非 结 构 化 的 整合 区 工作 流 的 特点 。 





图 3-43 非 结 构 化 整合 区 内 部 正在 进行 的 工作 流 模拟 


图 3-44 强调 了 非 结构 化 的 整合 工作 流 如何 充 满 了 大 动作 ， 考 虑 到 文本 环境 的 特点 ， 
这 束 不 足 为 奇 了 。 然 而 ， 因为 文本 数据 库 的 规模 变化 范围 较 大 ， 所 以 在 这 个 环境 中 也 会 
存在 一 些小 规模 的 活动 。 

因为 非 结构 化 整合 环境 的 工作 流 较 为 复杂 ， 所 以 响应 时 间 的 期 望 值 也 很 复杂 。 图 
3-45 显示 了 非 结 构 化 整合 环境 中 的 响应 时 间 。 
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图 3-44 非 结 构 化 的 整合 环境 管理 的 数据 量 会 非常 大 





图 3-45 ”访问 非 结 构 化 整合 环境 的 时 间 可 能 是 几 秒 甚至 是 几 小 时 ， 这 取决 于 事务 提交 时 刻 正在 处 
理 的 工作 量 


在 非 结 构 化 整合 环境 中 基本 上 有 两 种 活动 一 一 数据 的 加 载 和 数据 的 访问 。 非 结构 化 的 
文本 数据 几乎 不 可 能 更 新 。 当 一 个 文本 描述 或 工作 被 写 人 后， 如 果 需 要 修改 ， 那 么 只 能 
重新 写 人 。 因 此 ， 和 逐渐 地 或 者 部 分 地 更 新 文本 数据 显然 不 现实 。 

图 3-46 描述 了 非 结构 化 整合 环境 的 两 种 基本 活动 。 





图 3-46 在 非 结 构 化 整合 区 中 ， 事 务 可 以 访问 或 者 读 取 数 据 
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在 DW2. 0 中 非 结 构 化 环境 与 结构 化 环境 很 不 相同 。 通 常 只 有 一 个 非 结构 化 的 整合 区 ， 
而 是 否 需要 一 个 非 结构 化 的 近 线 区 还 是 个 疑问 。 

做 而 ， 有 时 还 是 会 为 了 非 结构 化 数据 而 使 用 归档 环境 。 当 数据 的 访问 概率 降低 时 ， 就 
会 被 放 人 非 结 构 化 的 归档 区 中 。 图 3-47 描述 了 非 结 构 化 文本 数据 向 非 结 构 化 归档 环境 的 
移动 。 





图 3-47， 非 结构 化 的 整合 数据 偶尔 需要 被 放 人 非 结构 化 归档 环境 


3.6 企业 用 户 的 观点 


将 数据 分 为 不 同 的 部 分 对 于 企业 用 户 来 说 是 很 普通 、 很 自然 的 。 将 构架 展示 给 终端 用 
户 ， 使 其 看 起 来 像 是 只 有 一 个 单一 的 数据 存储 并 不 是 一 个 好 策略 。 终 端 用 户 知道 数据 是 
以 时 间 为 依据 存放 在 不 同 地 方 的 。 

帮 外 ， 终 端 用 户 知道 可 以 在 DW2. 0 中 找到 文本 的 、 非 结构 化 的 数据 ， 并 且 可 以 在 这 
坚 数据 中 混 人 查询 语句 。 而 且 ， 终 端 用 户 知道 有 一 种 设施 一 一 元 数据 存在 ， 元 数据 让 终端 
用 户 能 在 环境 中 游 了 有余 。 

最 后 ， 终 端 用 户 知道 不 同 种 类 的 处 理 一 般 会 出 现在 不 同 的 地 方 。 如 果 终 端 用 户 想 要 进 
行 在 线 更 新 和 分 析 ， 交 互 区 可 以 实现 。 如 果 终 端 用 户 想 要 进行 整合 的 分 析 ， 则 可 由 整合 
区 来 完成 。 如 果 终 端 用 户 想 要 查看 足够 陈旧 的 数据 ， 那 么 归档 区 可 以 实现 。 

唯一 对 终端 用 户 透 明 的 区 域 是 近 线 区 或 者 叫做 数据 仓库 实用 工具 区 。 即 便 那样 ， 终 端 
用 户 还 是 希望 有 机 会 访问 和 分 析 近 线 区 中 的 数据 。 


3.7 总 结 


一 般 情况 下 ， 数 据 从 交互 区 进入 DW2.0 环境 。 数据 可 以 通过 ETL 或 者 直接 进入 
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DW2.0 环境 。 交 互 区 是 一 个 面向 应 用 的 区 域 ， 这 个 区 域 可 以 进行 数据 更 新 ， 并 且 文 持 
2 ~3 秒 的 响应 时 间 。 交 互 区 中 的 工作 流 小 而 快 ， 不 允许 大 的 事务 通过 。 

数据 在 交互 区 中 以 一 种 随机 、 人 快速 而 且 少 量 的 模式 被 访问 。 交 互 区 中 只 有 有 限 的 历史 
数据 。 

整合 区 数据 在 进入 该 环境 之 前 就 已 经 经 过 整合 了 。 通 常 ， 数 据 整 合 的 工作 是 由 ETL 
工具 完成 的 。 整 合 代 表 了 数据 状态 的 一 种 变化 。 交 互 区 中 的 数据 是 面向 应 用 的 ， 而 整合 
区 中 的 则 是 企业 数据 。 

进入 和 离开 整合 环境 的 数据 工作 流 是 混合 的 ， 包 括 了 大 大 小 小 的 事务 。 整 合 区 的 啊 应 
时 间 也 是 混合 的 ， 从 几 秒 到 几 小 时 都 有 可 能 。 在 整合 区 中 通常 会 有 大 量 的 数据 存在 ， 数 
据 一 般 为 3 ~5 年 。 

整合 区 中 没有 数据 的 更 新 。 当 数据 需要 改变 时 ， 会 对 数据 进行 快照 然后 插 人 数据 库 ， 
同时 也 会 创建 一 条 历史 数据 的 记录 。 

访问 是 不 经 常 发 生 的 ， 而 且 大 量 的 数据 访问 通常 是 集中 进行 的 。 

当 数 据 离 开 整 合 区 ， 它 们 不 是 进入 近 线 区 就 是 进入 归档 区 。 

近 线 区 就 像 是 整合 区 的 一 个 缓存 。 近 线 区 基于 非 磁 盘存 储 技 术 运 行 ， 其 中 包含 了 整合 
区 中 数据 的 镜像 。 

近 线 区 通过 人 工 或 者 一 种 跨 媒 介 存 储 管理 (CMSM ) 方法 与 整合 区 连接 。 近 线 区 的 工 
作 流 主要 是 不 频繁 的 数据 读 取 。 但 是 数据 的 读 取 都 是 集中 进行 的 。 当 数据 的 访问 概率 下 
降 时 就 被 放 人 近 线 区 。 

当 数 据 的 访问 概率 显著 下 降 ， 数 据 就 被 放 入 归档 区 。 归 档 区 包含 了 自主 式 的 数据 包 。 
这 些 自 主 式 的 数据 包 就 像 时 代 文 物 密 藏 锅 一 样 ， 在 未 来 某 个 非特 定时 间 被 打开 。 为 归档 
数据 创建 被 动 索 引 是 一 个 不 错 的 想法 。 

通常 归档 环境 中 有 大 量 的 数据 ， 其 中 会 有 上 百年 的 数据 也 是 可 以 理解 的 。 为 了 实用 ， 
归档 数据 必须 和 软件 版 本 以 及 产品 约束 无 关 ， 这 是 因为 当 需 要 数据 的 时 候 ， 相 同 版 本 的 
产品 不 太 可 能 继续 使 用 。 

非 结构 化 的 数据 只 有 上 先 被 整合 后 才能 对 文本 分 析 有 用 。 在 进入 非 结 构 化 的 DW2.0 环 
境 前 非 结 构 化 数据 必须 通过 ETL 层 。 

在 非 结 构 化 的 环境 中 通常 会 有 大 量 的 数据 。 对 于 非 结 构 化 数据 来 说 可 能 没有 归档 区 和 
近 线 区 。 


第 4 章 ，DW2. 0 中 的 元 数据 


DW 构架 中 必 不 可 少 的 组 成 部 分 之 一 是 元 数据 。 第 一 代数 据 仓库 中 不 提供 或 是 后 来 才 
想到 使 用 元 数据 ， 而 在 DW2. 0 中 ， 元 数据 成 为 数据 仓库 的 基石 。 

很 多 原因 使 元 数据 变 得 如 此 重要 。 首 先 ， 元 数据 对 开发 者 来 说 很 重要 ， 他 们 必须 将 自 
己 的 努力 与 之 前 所 做 的 工作 联系 起 来 。 第 二 ， 元 数据 对 技术 维护 员 来 说 也 很 重要 ， 因 为 
他 们 必须 处 理 日 常 问 题 以 确保 数据 仓库 有 序 工 作 。 元 数据 对 于 对 终端 用 户 来 说 可 能 是 最 
重要 的 ， 因 为 终端 用 户 需 要 找 出 都 有 哪些 可 能 可 用 于 新 的 分 析 。 

理解 DW2. 0 中 元 数据 重要 性 的 最 好 方法 是 将 其 看 作 大 型 公共 图 书馆 中 的 卡片 目录 。 
在 这 样 一 个 大 型 公共 图 书馆 中 信息 是 怎样 被 搜索 到 的 呢 ? 人 们 是 否 进 入 图 书馆 以 后 逐 排 
寻找 自己 想 找 的 书 呢 ? 这 当然 可 以 ， 但 会 浪费 很 多 时 间 。 比 较 合 理 的 做 法 是 直接 查询 图 
书 卡片 目录 。 相 较 于 遍历 图 书馆 中 每 本 书 的 手工 查找 方法 ， 查 找 卡片 目录 的 方法 大 大 提 
高 了 查找 效率 。 

当 目 录 中 存在 读者 想 要 寻找 的 书 时 ,读者 便 可 以 直接 去 指定 地 点 找到 该 书 ， 这 样 做 大 
大 节省 了 查找 资料 的 时 间 。 

DW2.0 中 元 数据 也 扮演 着 类 似 于 图 书馆 中 的 目录 卡片 一 样 的 重要 角色 。 元 数据 允许 
分 析 人 员 查 看 其 组 织 结构 ， 并 掌握 已 经 完成 了 什么 分 析 。 


4.1 数据 和 分 析 的 可 复 用 性 


下 面 我 们 讨论 终端 用 户 。 终 端 用 户 置 身 事 外 但 对 信息 存在 需求 。 这 种 对 信息 的 需求 可 
能 源 于 管理 指令 ， 也 可 能 源 于 企业 委托 ， 或 者 纯粹 是 终端 用 户 出 于 个 人 的 好 奇 。 不 管 需 
求 源 自 何 处 ,终端 用 户 都 在 想 办 法 得 到 这 些 分 析 数 据 ， 而 元 数据 就 成 为 其 求助 的 对 象 。 
元 数据 使 分 析 人 员 能 够 确定 哪些 信息 是 可 用 的 。 一 旦 分 析 人 员 确 定 了 数据 最 可 能 的 来 源 ， 
便 可 以 开始 访问 这 些 数据 。 

没有 元 数据 ， 分 析 人 员 很 难 识别 数据 的 可 能 来 源 。 分 析 人 员 可 能 熟悉 其 中 一 些 数据 的 
来 源 ， 但 并 不 一 定 知道 所 有 数据 的 来 源 。 在 这 种 情况 下 ， 元 数据 的 存在 省 去 了 我 们 很 多 
不 必要 的 工作 。 

同样 ， 终 闯 用 户 也 可 以 利用 元 数据 来 判断 是 否 已 经 完成 某 一 分 析 ， 回 答 问 题 就 像 察 看 
他 人 做 了 什么 一 样 简单 。 如 果 没 有 元 数据 ,终端 分 析 员 将 永远 不 会 知道 哪些 工作 已 经 
完成 。 

签 于 以 上 这 些 原因 (其 实 还 有 更 多 的 原因 )， 元 数据 成 为 DW2.0 构架 中 非常 重要 的 
一 部 分 。 


4.2 DW2.0 中 的 元 数据 


元 数据 在 DW2.0 中 起 着 特殊 的 作用 。DW2. 0 中 的 每 个 区 中 都 有 各 自 的 元 数据 ， 其 中 
包括 交互 区 元 数据 、 整 合 区 元 数据 、 近 线 区 元 数据 以 及 归档 区 元 数据 。 
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归档 区 元 数据 不 同 于 其 他 元 数据 ， 这 是 因为 归档 区 元 数据 直接 置 于 归档 数据 中 ， 以 确 
保 元 数据 不 会 跟 其 所 描述 的 基础 数据 分 离 或 丢失 。 

图 4-1 描述 了 DW2.0 构架 中 元 数据 通常 所 处 的 位 置 。 

i a 





另 一 _ 种 用 于 结构 化 环境 中 。 图 4-2 描绘 2 
数据 结构 层次 的 高 层 。 

对 于 非 结构 化 数据 而 言 ， 有 两 种 类 型 的 元 数 
据 一 一 企业 型 和 本 地 型 。 企 业 元 数据 被 认为 是 通用 
元 数据 ， 本 地 元 数据 被 认为 是 专项 元 数据 。 

对 于 结构 化 元 数据 来 说 ， 有 三 个 级 别 一 企业 
级 、 本 地 级 、 业 务 或 技术 级 。 这 些 不 同类 型 的 元 数 a TD OW. I 
据 之 间 有 着 非常 重要 的 联系 ， 解释 这 种 关系 的 捷径 








是 从 本 地 级 开始 讨论 。 
结构 化 企业 
非 结构 化 企业 » | 
’ 
， 本 地 a 人 本 
ee 
证 和 接 玉 业务 按 术 业务 按 术 


图 4-2 元 数据 的 总 体 构架 


本 地 元 数据 之 所 以 是 最 佳 的 研究 起 点 是 因为 它 是 很 多 人 最 熟悉 的 元 数据 类 型 。 本 地 元 
数据 存在 于 很 多 不 同 的 表格 和 位 置 中 。 它 存在 于 ETL 处 理 、DBMS 字典 以 及 商业 智能 领 
域 中 。 

本 地 元 数据 是 这 样 一 种 元 数据 类 型 ， 它 存在 于 二 种 工具 中 ， 而 这 种 工具 对 描述 和 其 直 
接 相 关 的 元 数据 非常 有 用 。 例 如 ，ETL 元 数据 涉及 数据 源 、 目标 以 及 数据 从 源 地 址 送 到 目 
的 地 址 时 的 数据 转换 等 问题 。DBMS 字典 元 数据 与 表格 、 属性 及 索引 有 关 。 商 业 智 能 领域 
的 元 数据 则 是 用 以 针对 那些 用 于 分 析 处 理 的 数据 。 除 此 之 外 ， 还 有 很 多 类 型 的 本 地 元 
数据 。 

图 4-3 举例 说 明了 本 地 元 数据 。 

本 地 元 数据 的 存储 于 对 利用 本 地 元 数据 非常 重要 的 一 种 工具 或 一 项 技术 当中 。 另 一 方 
面 ， 企 业 元 数据 则 储存 在 对 DW2. 0 环境 下 的 所 有 工具 和 过 程 来 说 都 很 重要 的 本 地 当中 。 

图 4-4 说 明 企业 元 数据 存储 在 DW2. 0 环境 中 的 各 个 区 。 

从 图 4-4 中 可 以 看 出 ，DW2. 0 中 各 区 之 上 是 企业 级 元 数据 的 集合 ， 所 有 的 企业 元 数 
据 一 起 形成 一 个 知识 库 。 实 际 上 ， 除 了 归档 区 之 外 的 所 有 区 都 将 它们 的 元 数据 存储 在 知 
识 库 中 。 
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ETL 本 地 元 数据 









商业 智能 领域 


DBMS 字 典 
图 4-3 本 地 元 数据 存在 于 很 多 地 方 图 4-4 元 数据 存储 在 知识 库 中 





4.3 主动 知识 库 / 被 动 知识 库 


”主动 知识 库 和 被 动 知识 库 是 两 种 基本 类 型 的 元 数据 知识 库 。 主 动 知识 库 里 面 的 元 数据 
随 看 系统 的 发 展 和 查询 活动 变化 而 不 断 地 进行 交互 。 被 动 知识 库 里 的 元 数据 不 能 直接 随 
系统 的 发 展 和 /或 终端 用 户 的 查询 进行 交互 。 

图 4-5 描述 了 被 动 知识 库 。 





一 图 
开发 





图 4-5 被 动 知识 库 


不 推荐 使 用 被 动 知识 库 ， 因为 终端 用 户 和 开发 者 的 活动 是 独立 于 元 数据 知识 库 的 。 因 
为 大 部 分 的 机 构 都 会 尽 可 能 地 减少 工作 量 ， 降 低 开支 并 尽快 完成 任务 ， 所 以 任何 可 选择 
的 工作 都 将 无 法 完成 。 被 动 元 数据 知识 库 如 同 程序 说 明 书 一 样 ， 经 验 丰 富 的 开发 者 会 省 
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掉 看 程序 说 明 书 这 项 工作 。 
即使 建立 了 被 动 知识 库 ， 它 也 会 随 着 系统 的 变更 而 很 快 过 时 。 
4. 4 主动 知识 库 


主动 知识 库 是 另 一 种 元 数据 知识 库 类 型 。 主 动 知识 库 用 来 放置 企业 元 数据 ， 元 数据 在 
开发 和 数据 查询 中 经 常 被 用 到 。 图 4-6 是 主动 知识 库 示 意图 。 


四 











= 一 






图 4-6 主动 知识 库 


图 4-6 说 明 ， 使 用 元 数据 进行 的 开发 和 数据 查询 都 与 元 数据 知识 库 密 不 可 分 。 例 如 ， 
当 数 据 模型 出 现 变 化 ,或 者 是 需要 对 当前 数据 进行 描绘 ， 又 或 者 需要 源 数据 时 ， 都 依赖 
于 主动 知识 库 作 为 其 基础 。 


4.5 企业 元 数据 


当 需 要 对 表格 进行 数据 查询 ， 或 是 需要 检查 局 部 和 全 局 之 间 的 关系 ， 再 或 是 分 析 员 仪 
仅 希 望 知道 有 哪些 数据 可 用 时 ， 可 以 使 用 企业 主动 元 数据 知识 库 。 

企业 元 数据 与 本 地 元 数据 之 间 有 很 多 不 同 的 关联 。 首 先是 它们 的 语义 关联 。 在 语义 关 
联 中 ， 企 业 为 公司 定义 了 一 个 全 局 术语 ， 之 后 描述 了 术语 的 本 地 使 用 ， 并 用 指针 指向 可 
以 在 其 中 找到 术语 使 用 的 本 地 系统 。 例 如 ， 假 设 三 个 本 地 系统 与 企业 术语 “收益 ”相关 。 
这 三 个 本 地 系统 中 的 术语 分 别 是 “收益 ”、“ 人 金钱 ”"、“ 资 金 "。 这 三 个 不 同 的 词汇 在 这 个 
例子 中 代表 相同 的 意思 。 企 业 元 数据 能 够 让 企业 很 好 地 了 人 解 这 些 同义词 术语 。 

元 数据 使 得 各 种 词汇 在 企业 层 和 本 地 层 
得 以 统一 ， 图 4-7 具体 说 明了 元 数据 的 这 个 -收益 


特性 。 pe 
但 语义 关联 并 不 是 DW2.0 环境 元 数据 
中 企业 /本 地 间 的 唯一 一 种 关联 。 本 地 收益 


态 一 种 非常 重要 的 数据 关联 经 常 出 现在 
企业 对 象 域 定 义 中 。 图 4-8 说 明了 这 种 定义 
期 去 5 

该 图 给 出 了 一 个 主要 的 对 象 域 “顾客 ”， 其 定义 在 企业 层 。 在 本 地 层 可 以 找到 关于 顾 
客 的 不 同 信息 。 在 第 一 个 本 地 系统 中 存 有 客户 的 姓名 及 地 址 信息 ， 第 二 个 本 地 系统 中 存 


本 地 金钱 ii 
图 4-7 企业 元 数据 与 本 地 元 素数 据 关 系 的 例子 


edcssc 


有 关于 顾客 年 龄 和 购买 偏好 的 信息 ， 第 三 个 本 地 系统 掌握 顾客 收入 、 学 历 、 社 会 保险 号 。 


企业 
对 象 域 : 顾客 
本 地 
本 地 ee 
tn | | 
姓名 po 学 从 


图 4-8 ”在 企业 层 关于 对 象 域 的 实例 说 明 
企业 元 数据 层 可 用 于 确定 本 地 系统 在 哪里 存储 了 对 主要 业务 对 象 的 支持 数据 。 
4.6 元 数据 和 记录 系统 


元 数据 同样 可 以 用 于 为 企业 的 数据 对 象 和 数据 属性 定义 记录 系统 。 在 记录 系统 中 ， 每 
个 数据 的 最 终 来 源 是 明确 的 。 图 4-9 对 这 点 进行 了 说 明 。 对 于 企业 中 的 主要 对 象 的 多 种 数 
据 属 性 而 言 ， 有 多 个 记录 系统 是 正常 的 。 


企业 
值得 注意 的 是 ， 在 前 面 三 个 例子 Pr 
中 ， 数 据 定义 和 本 地 元 数据 层 与 企业 姓名 


记录 系统 
元 数据 层 间 的 关联 定义 之 间 存在 重奏 


的 部 分 ， 但 它们 之 间 也 有 所 差异 。 这 
些 关 系 间 的 差别 是 十 分 微妙 的 ， 在 
DW2.0 环境 下 ,企业 元 数据 和 对 应 的 
本 地 元 数据 能 够 体现 这 些 细微 的 差别 。 
在 DW2.0 中 还 有 一 种 元 数据 关系 


本 地 
社会 保险 号 





同样 非常 重要 。 例 如 ， 在 元 数据 本 地 性 别 

层 有 两 种 明显 不 同 的 元 数据 类 型 ， 它 

们 是 业务 元 数据 和 技术 元 数据 。 图 4-9 元 数据 企业 层 描述 的 记录 系统 
业务 元 数据 用 业务 人 员 的 行 话 来 


说 ， 是 指 对 数据 的 业务 描述 。 技 术 元 数据 是 指 对 数据 的 技术 描述 。 例 如 ， 业 务 元 数据 
“收益 ”定义 为 “用 来 支付 服务 或 产品 的 金钱 或 实物 ”。 再 比如 ， 技 术 元 数据 可 以 看 成 是 
表格 “ABC” 中 包含 属性 定义 “REV-DESIGNATED PIC 9999. 99” 


图 4- 10 展示 了 元 数据 本 地 层 有 其 本 地 收益 
对 于 业务 元 数据 和 技术 元 数据 的 细 分 。 
DW2. 0 中 非 结构 化 数据 有 属于 
自己 的 元 数据 。 非 结构 化 环境 的 元 A 
数据 与 结构 化 环境 的 元 数据 有 很 大 HIGH_REV 
业务 收益 - 收 到 的 资金 ， 信 托 工具 i 
不 同 。 我 们 以 分 类 为 例 说 明 非 结构 让 人 


基本 


化 环境 下 的 元 数据 。 图 4-10 本 地 业务 元 数据 和 本 地 技术 元 数据 


I 


4. 7 “分 类 


简单 来 说 ,分 类 是 对 一 个 大 主题 的 一 种 细 分 ， 通 常会 包含 对 一 个 给 定 主 题 组 件 的 详细 
分 解 。 词 汇 表 和 本 体 论 都 与 分 类 有 关 。 

非 结 构 化 DW2.0 环境 下 存在 两 种 基本 的 分 类 ， 即 内 部 分 类 和 外 部 分 类 。 内 部 分 类 仅 
仅 由 文本 中 的 单词 和 短语 组 成 。 例 如 ， 假 设 我 们 现在 讨论 的 是 关于 一 系列 的 合同 的 问题 ， 
对 于 这 一 组 合同 的 分 类 应 该 包含 一 些 主要 的 主题 ， 例 如 合同 、 期 限 、 协 议 的 长 度 以 及 赔 
兰 。 内 部 分 类 是 对 非 结 构 化 数据 文本 中 的 主要 对 象 域 的 一 种 声明 。 有 时 内 部 分 类 被 称 作 
文本 的 “主题 ”。 

在 非 结 构 化 DW2. 0 环境 中 的 另 一 种 类 型 的 分 类 是 外 部 分 类 。 外 部 分 类 来 源 很 广 ， 外 
部 分 类 有 时 就 产生 于 “真实 的 世界 ”。 外 部 分 类 可 以 包括 : 

。 院 班 斯 -奥克斯 利 法 案 。 

。 巴塞 尔 新 资本 协议 。 

e 进出 口 规定 。 

。 美国 职业 棒球 大 联盟 。 

。 杜威 十 进 制 编码 方案 。 

e Emeril 的 食谱 。 

外 部 分 类 与 一 个 非 结构 化 数据 实体 可 能 存在 关系 也 可 能 没有 关系 。 例 如 ， 假 设 将 外 部 
分 类 美国 职业 棒球 大 联盟 跟 一 种 非 结构 化 的 合同 文本 比较 ， 除 非 合同 是 为 棒球 队员 而 定 
的 ， 否 则 这 份 合 同 很 可 能 和 美国 职业 棒球 大 联盟 毫 无 关联 。 相 反 ， 假 设 正文 是 授权 公 慎 
开 文 的 邮件 集 ， 外 部 分 类 为 萨 班 斯 法 案 。 在 这 种 情况 下 ， 分 类 与 非 结构 化 数据 实体 间 有 
很 大 一 部 分 重 释 。 


4.8 内 部 分 类 /外 部 分 类 


图 4-11 表示 了 两 种 不 同 种 类 的 分 类 。 
非 结构 化 元 数据 有 很 多 不 同 的 形式 。 图 4-12 给 出 了 不 同类 型 的 非 结构 化 元 数据 的 一 
些 样 例 。 其 中 一 些 类 型 的 元 数据 是 非 结构 化 环境 中 比较 普遍 的 ， 它 们 包括 : 
。 无 用 词 一 一 一 些 在 说 话 中 用 到 但 是 对 文本 的 意义 不 重要 的 词 。 典 型 的 无 用 词 包括 : 
一 个 、 和 名: 是、 那个 导 邯 个 “如 里 、 到 。 





非 结 构 化 元 数据 
分 类 





“> 外 部 分 类 





J __y 内 部 分 类 


图 4-11 不 同 分 类 的 来 源 图 4-12 非 结构 化 元 数据 的 一 些 类 型 
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。 同义词 意思 一 样 但 是 拼写 不 同 的 词 。 例 如 fur 和 coat 这 两 个 单词 。 

。 问 形 词 一 一 拼写 相同 但 意思 不 一 样 的 词 。 例 如 , “bow of a ship” 中 的 bow 和 “bow 
and arrow” 中 的 bow。 : 

e 可 互 换 的 拼写 同一 个 单词 的 多 种 可 以 接受 的 拼写 。 例 如 color 和 colour。 


4.9 归档 区 元 数据 


在 DW2.0 环境 下 ， 当 涉及 归档 区 元 数据 时 ， 会 出 现 一 种 异常 。 在 归档 区 中 ， 与 归档 
过 程 相关 的 元 数据 存储 在 归档 数据 本 身 中 。 之 所 以 将 它们 存在 一 起 ， 是 因为 假设 如 果 将 
元 数据 与 其 相关 的 归档 数据 并 排 相 放 ， 那 么 它 将 随时 间 而 丢失 。 当 然 ， 在 归档 环境 中 也 
可 以 存储 独立 的 元 数据 集 。 但 是 对 历史 数据 的 查询 最 频繁 并 且 
也 最 可 能 有 用 的 第 一 存储 地 点 是 归档 数据 本 身 。 

图 4-13 显示 了 归档 数据 中 应 该 包含 属于 它 自己 的 元 数据 。 


4. 10 ”维护 元 数据 图 4-13 归档 区 中 的 元 数据 











归档 区 





元 数据 面临 的 一 个 重大 挑战 不 是 元 数据 环境 最 初始 的 创建 ， 而 是 对 元 数据 环境 的 持续 
稚 护 。 改 变 是 永恒 的 ， 而 改变 对 元 数据 的 影响 跟 对 其 他 所 有 事物 的 影响 一 样 ， 

图 4-14 显示 了 一 个 发 生变 化 的 情况 ,并 表明 主动 元 数据 环境 比 被 动 环境 更 易 适 应 
改变 。 





发 生变 化 





图 4-14 当 发 生变 化 时 ， 在 主动 知识 库 中 进行 维护 相对 比较 容易 


在 钙 动 元 数据 环境 下 ， 很 容易 忽视 改变 。 一 个 变化 发 生 以 及 由 此 导致 的 一 系列 改 恋 在 
锌 动 元 数据 环境 下 会 产生 延迟 。 有 一 天 你 会 忽然 发 现在 元 数据 环境 下 长 时 间 无 法 显示 日 
毅 正 规 的 变化 ， 由 此 会 导致 当 你 最 需要 这 些 数据 时 ， 读 取 到 的 所 谓 的 最 新 闻 步 信息 实际 
上 没有 任何 用 处 。 

主动 元 数据 知识 库 有 规律 地 显示 出 变化 以 便 对 现 有 系统 进行 正常 的 更 新 和 维护 。 当 系 
统 发 生变 化 时 ， 元 数据 也 必然 随 之 改变 。 

使 用 元 数据 与 存储 及 定期 更 新 元 数据 一 样 重要 。 尽 管 使 用 元 数据 有 很 多 方式 ， 但 利用 
终端 用 户 交互 式 处 理 的 用 户 接 口 也 许 是 一 种 最 有 效 的 方法 。 


4. 11 举例 说 明 如 何 使 用 元 数据 


下 面 举例 说 明 DW2. 0 中 元 数据 的 用 法 。 我 们 考虑 以 下 方案 : P. Bruton 是 一 家 航空 公 
司 代理 商 ， 她 要 为 客户 Bil Inmon 提供 带 有 空乘 信息 的 显示 屏 。 
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带 有 空乘 信息 的 显示 屏 如 图 4-15 所 未 。 





图 4-15 终端 用 户 初始 化 显示 屏 或 报告 


P. Bruton 并 不 清楚 Tiki 航空 公司 为 她 预 留 的 座位 。 她 发 现 一 个 让 她 感 兴趣 的 数据 字 
段 ， 那 便 是 Tiki 航空 公司 显示 屏 上 的 CONNECTIONS 字段 ， 如 图 4-16 所 示 。 之 后 ， 
P. Bruton 按 下 功能 键 ， 弹 出 了 一 个 菜单 ， 如 图 4-17 所 示 。 荣 单 指 示 让 她 确定 她 想 要 看 哪 
一 方面 的 CONNECTIONS。 选 项 分 别 是 : “别名 (AKA)”, “定义 (definition)”，“ 公 式 
(formula)” “用 于 何 处 (where used)”，“ 归 属 (owned by)”。P. Bruton 选择 了 “定义 
( definition ) ”这 个 选项 。 


rt 





图 4-16 ”用户 为 自己 选择 了 一 个 感 兴趣 的 单元 


菜单 中 显示 的 可 用 元 数据 类 型 如 图 4-17 所 示 。 

现在 系统 开始 查询 关于 CONNECTIONS 定义 的 元 数据 信息 。 通 过 对 定义 的 查找 ， 系 统 
显示 出 关于 CONNECTIONS 定义 的 相关 数据 。 

在 交互 模式 下 元 数据 定义 的 显示 情况 如 图 4-18 所 示 。 

需要 注意 的 是 ， 对 元 数据 的 访问 需要 一 直 使 用 最 初 的 显示 屏 。 对 元 数据 的 显示 是 基于 
分 析 过 程 之 上 的 。 数 据 交 互 地 显示 ， 并 成 为 分 析 过 程 的 一 部 分 。 
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图 4-18 屏幕 显示 希望 获取 的 元 数据 


4. 12 终端 用 户 的 观点 


在 DW2.0 中 ， 元 数据 的 赎 途 很 广 。 元 数据 为 不 同 区 的 数据 提供 交互 服务 ， 它 扮演 的 
角色 既 像 环境 的 文档 ， 又 像 湖 DW2. 0 环境 添加 数据 的 线路 图 。 不 过 它 最 重要 的 作用 在 于 
为 DW2.0 中 的 数据 内 容 及 关联 提供 指导 。 

终 问 用 户 对 DW2. 0 中 的 数据 和 关联 需要 指导 。 在 DW2. 0 环境 下 ， 如 果 终 端 用 户 得 到 
了 已 存在 的 那些 数据 的 指导 信息 ， 那 么 就 有 可 能 重用 这 些 数据 。 换 一 种 说 法 ， 如 果 
DW2.0 中 不 存在 元 数据 ， 那 么 终端 用 户 每 次 创建 新 的 分 析 都 必须 从 头 开 始 。 由 于 终端 用 
户 看 不 到 已 经 完成 的 那些 分 析 工 作 ， 因 此 所 有 工作 都 必须 从 头 开 始 。 

在 多 数 情况 下 ， 每 次 分 析 都 要 重新 开始 一 遍 简 直 是 多 此 一 举 。 运 用 元 数据 就 不 需要 这 
个 多 余 的 步骤 了 。 分 析 员 可 以 在 其 他 分 析 员 的 分 析 基 础 上 进行 工作 。 

从 业务 用 户 的 角度 来 看 ， 元 数据 还 有 一 个 很 重要 的 作用 ， 就 是 可 以 用 于 显示 数据 的 继 
承 。 在 很 多 情况 下， 分析 员 将 一 个 数据 单元 看 作 分 析 工 作 的 一 部 分 ， 而 业务 用 户 需 要 知 
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道 数 据 的 来 源 以 及 数据 是 如 何 计算 出 来 的 。 在 DW2.0 中 ， 元 数据 能 够 提供 这 种 重要 的 
功能 。 

从 业务 用 户 的 角度 来 看 ， 元 数据 还 有 其 他 很 多 重要 的 作用 。 有 时 存在 着 对 数据 的 一 致 
性 需要 ， 例 如 ， 存 在 对 萨 班 斯 法 案 和 巴塞 尔 新 资本 协议 的 一 致 性 需要 。 元 数据 对 审核 跟 
蹊 提 供 了 关键 部 分 ， 而 这 于 分 析 环 境 中 的 一 致 性 是 至 关 重 要 的 。 

为 处 ， 在 DW2.0 环境 中 ， 从 业务 用 户 的 角度 来 看 ， 基 于 很 多 实用 原因 ， 元 数据 有 着 
举足轻重 的 作用 。 


4. 13 总 结 


元 数据 是 数据 重用 性 和 分 析 的 关键 。 分 析 员 通过 元 数据 能 够 知道 哪些 工作 已 经 完成 。 
如 来 没有 元 数据 ， 分 析 员 要 想 找 出 哪些 工作 已 经 完成 会 非常 困难 。 

元 数据 有 四 个 层次 : 

。 企业 

。 本 地 

。 业务 

。 技术 \ 

元 数据 既 可 用 于 结构 化 DW2. 0 环境 中 ， 也 可 用 于 非 结构 化 DW2. 0 环境 中 。 元 数据 知 
识 库 分 为 主动 和 被 动 两 种 ， 主 动 元 数据 知识 库 比 被 动 元 数据 知识 库 更 有 用 。 在 开发 和 分 
析 阶 段 交互 使 用 的 元 数据 知识 库 称 作 主 动 知识 库 。 

元 数据 知识 库 完整 地 定义 了 数据 仓库 记录 系统 。 

非 结 构 化 元 数据 由 分 类 、 词 汇 表 、 本 体 组 成 。 元 数据 从 形式 上 分 为 内 部 元 数据 和 外 部 
元 数据 。 

归档 元 数据 直接 存储 在 归档 区 。 通 过 将 元 数据 和 其 描述 的 归档 数据 存储 在 相同 的 物理 
存储 上 ， 就 可 以 创建 一 个 数据 的 时 间 封 闭 仓 。 


第 5 草 ”DW2.0 技术 基础 设施 的 流动 性 


DW2.0 作为 下 一 代数 据 仓库 在 架构 上 有 很 多 重要 方面 一 对 数据 生命 周期 的 认识 ， 
包含 非 结构 化 数据 ， 以 及 将 元 数据 作为 其 基本 组 成 部 分 。 但 是 对 于 DW2. 0 架构 而 言 ， 面 
临 的 最 大 的 一 个 挑战 就 是 其 处 于 一 个 所 采用 的 技术 可 以 跟 业 务 同样 快速 改变 的 环境 中 ， 

因为 商业 环境 总 是 不 断 改 变 ， 所 以 从 终端 用 户 的 角度 来 说 流动 性 是 非常 重要 的 。 在 某 
一 时 刻 一 个 公司 需要 着 眼 于 利润 ， 这 意味 着 提高 价格 和 扩大 销售 。 而 下 一 年 公司 又 需要 
看 腿 于 成 本 ， 这 意味 着 降低 开支 和 停止 扩张 。 第 三 年 公司 可 能 又 需要 着 腿 于 新 产品 和 新 
的 收益 梨 道 。 每 当 商 业 环 境 发 生 改 变 时 ， 就 会 需要 新 的 类 型 的 信息 。 而 且 ， 由 于 竞争 、 
科技 和 经 济 潮流 的 改变 ， 对 于 信息 就 会 不 断 有 新 的 需求 。 

如 采 一 个 数据 仓库 建立 在 难以 改变 的 技术 之 上 ， 那 么 企业 的 这 种 技术 就 无 法 适应 商业 
环境 。 这 意味 着 ,虽然 对 企业 来 说 ， 技 术 同 数据 仓库 本 身 一 样 重要 ， 但 就 其 价值 而 言 往 
往 不 是 最 佳 的 。 

在 种 一 代数 据 仓库 中 采用 了 传统 的 信息 处 理 技术 来 存储 数据 。 因 此 ， 数 据 仓库 就 是 铁 
板 一 块 ， 对 于 数据 仓库 很 难 做 出 很 大 的 改变 。DW2.0 认识 到 并 且 对 上 述 问题 做 出 相应 的 
处 理 。 

这 种 情况 可 以 从 图 5-1 看 出 。 图 5-1 显示 了 业务 需求 的 永远 改变 的 特性 。 业务 需求 的 
个 断 改 变 是 不 可 避免 的 一 一 就 像 死 亡 和 税收 一 样 。 不 同 组 织 间 的 唯一 区 别 是 改变 的 速度 和 
汇 围 ， 而 改变 永远 在 发 生 。 





图 5-1 业务 需求 持续 变化 ， 但 是 技术 基础 结构 是 很 明确 的 


5.1 技术 基础 设施 


技术 基础 设施 位 于 业务 之 下 ， 支 撑 业 务 的 完成 。 因 此 当 业 务 需 求 改变 时 ， 往 往 会 出 现 
问题 。 这 是 因为 对 技术 基础 设施 的 改变 需要 很 大 的 努力 ， 所 以 业务 总 是 先 于 用 来 支持 它 
的 基础 技术 出 现 。 

保持 固定 的 技术 基础 设施 有 很 多 充分 的 理由 。 其 核心 是 流行 于 系统 厂商 间 的 一 个 概 
念 : 当 一 项 技术 被 定义 之 后 ， 这 个 定义 就 是 固定 的 了 。 这 个 基本 的 观念 在 很 多 情况 下 都 
会 出 现 : 

。 对 于 DBMS 厂商 ， 在 一 个 项 目 开始 定义 数据 结构 的 时 候 。 

”对 于 编译 者 ， 他 们 认为 ， 一 旦 指定 了 处 理 过程 和 算法 ， 他 们 将 会 按照 这 样 的 方法 

长 期 做 下 去 。 
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。 对 于 商业 智能 厂商 ， 他 们 认为 一 旦 一 个 查询 被 执行 ,那么 以 后 相同 的 查询 就 会 以 
相同 的 方式 执行 。 
。 对 于 管理 者 ， 他 们 认为 ， 当 他 们 作 租 约 的 或 
长 期 的 承诺 时 ， 问 题 会 得 以 解决 并 且 不 会 演 
变 成 其 他 问题 。 
还 有 很 多 例子 会 错误 地 假设 一 旦 需求 确定 下 来 
就 不 会 再 出 现 其 他 的 需求 。 
图 5-2 说 明了 这 种 设想 。 
但 是 需求 在 不 断 地 改变 ， 考 虑 图 5-3 的 简单 图 表 。 
图 5-3 中 菱形 的 阴影 区 域 表 示 业 务 需求 的 改变 。 , 
矩形 区 域 表 示 IT 部 门 改变 技术 基础 设施 以 适应 业务 ;< 租约 太 贵 被 中 断 
需求 的 改变 。 黑 色 虚 线 表 示 从 业务 需求 改变 开始 到 
IT 部 门 完 成 必要 改变 的 时 间 长 度 。 这 条 黑色 虚线 一 
图 5-2 ”技术 基础 设施 难以 改变 的 众多 原因 


DBMS 数 据 结 构 








查询 写 人 静态 SQL 








般 来 说 是 很 长 的 时 间 。 图 5-3 所 描绘 的 情况 是 普遍 
存在 的 。 


当 需 要 有 一 个 业务 需求 变化 的 认识 当 IT 部 门 受 到 技术 变化 的 影响 


-> 


图 5-3 ”IT 基础 设施 的 变化 需要 的 时 间 长 度 





5.2 快速 的 业务 改变 
接 下 来 考虑 当 业 务 改变 速度 比 IT 部 门 的 响应 速度 快 时 会 发 生 什么 。 图 5-4 描述 了 这 


种 情况 。 
例 …-> 站 


图 5-4 所 需 的 改变 速度 高 于 可 以 承受 这 些 改变 的 能 力 时 会 发 生 什么 
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图 5-4 描述 了 业务 需求 改变 速度 是 如 何 高 于 全部 门 对 改变 的 啊 应 速度 的 。 当 发 现 第 
一 个 改变 时 ，IT 部 门 开 始 设计 、 


计划 并 且 建 立 响应 。 但 是 在 他 们 完成 之 前 ， 另 一 批 业务 
需求 开始 出 现 ， 这 些 新 的 业务 需求 有 它 自 己 的 生命 周期 。 不 同 的 另 一 组 人 员 开 始 处 理 这 
个 新 需求 。 当 两 组 人 员 必 须 处 理 和 改变 相同 的 数据 和 过 程 时 ， 事 情 变 得 麻烦 起 来 。 而 在 
- 第 一 个 和 第 二 个 IT 部 门 对 应 结构 改变 完成 之 前 ， 第 三 批 新 的 业务 需求 的 出 现 使 得 事情 变 
得 更 加 糟糕 。 当 第 一 、 第 二 和 第 三 组 人 员 需 要 同时 处理 相 同 的 数据 和 相同 的 过 程 时 事情 
会 变 得 真正 复杂 起 来 。 
麻烦 接 中 而 至 。 
5.3 环 状 改变 


企业 经 常 发现 自己 映 陷 一 个 恶性 循环 中 。 业 务 改变 快 于 IT 部 门 对 改变 的 响应 从 而 
产生 了 新 的 改变 了 的 业务 需求 ， 而 这 又 产生 一 个 永 无 止境 的 循环 。 图 5-5 描述 了 这 个 
循环 。 


图 5-5 中 的 循环 所 带 来 的 长 远 影响 是 IT 部 门 被 认为 并 没有 对 公司 业务 做 出 及 时 反 
业务 和 IT 技术 好 像 在 两 个 方向 上 前 进 。 图 5-6 显示 了 这 一 明显 的 分 歧 。 


bd 
Ym 
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与 » 
人 
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“和 ---” 


图 5-5 本 部 门 陷 入 一 个 永远 止境 的 循环 


图 5-6 ” 卫 部 门 和 业务 部 门 的 分 歧 
5.4 打破 循环 





对 于 这 种 困境 我 们 可 以 做 什么 ? 这 里 有 几 个 可 行 的 方案 ; 
。 冻结 业务 需求 :不幸 的 是 ， 冰 冻 业务 需求 等 同 于 一 出 现 问题 就 把 头 埋 和 沙 堆 ， 不 
敢 面 对 现实 。 


。 增加 IT 资源 ， 在 混乱 中 投入 更 多 的 IT 人 员 是 昌 


贵 的 而 且 通 常 是 无 效 的 ( 详 见 Fred 
Brooks 的 《人 月 神话 》)。 


。 缩短 IT 响应 时 间 : 缩短 IT 对 新 改变 的 业务 需求 的 响应 时 间 通 常 是 唯一 的 选择 。 
事实 上 ， 就 长 远 来 说 只 有 第 三 个 选项 是 可 行 的 


5.5 缩短 IT 响应 时 间 


图 5-7 表示 IT 需要 缩短 其 对 改变 的 响应 时 间 和 一- 
是 唯一 现实 的 选择 。 


IT 对 改变 的 响应 时 间 必 须 缩 短 是 一 件 事 ， 而 ”图 5-7 唯一 现实 的 计划 是 缩短 IT 所 需 
确定 如 何 去 做 则 是 另外 一 件 事 的 对 业务 变化 的 响应 时 间 
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5.6 语义 暂 态 、 语 义 常 态 数据 


缩短 IT 对 技术 基础 设施 的 适应 时 间 ， 以 使 其 能 适应 不 断 进行 的 业务 改变 的 最 好 最 有 
效 的 方法 之 一 在 于 一 个 让 人 意 想不到 的 地 方 一 一 语义 暂 态 数据 和 语义 常态 数据 。 图 5-8 描 
绘 了 这 两 种 类 型 的 数据 。 

上 面 的 和 矩形 区 域 表示 语义 暂 态 数据 ， 下 面 的 区 域 便 是 语义 常态 数据 。 

常态 语义 和 暂 态 语 义 是 什么 意思 ? 数据 类 型 可 以 在 二 者 之 间 改 变 ， 数据 内 容 可 以 改 
变 。 例 如 ， 我 的 银行 账户 可 能 在 5 000 美元 到 7 500 美元 之 间 保 持平 衡 。 这 是 一 个 数据 内 
容 改变 的 例子 。 但 是 ， 还 有 另 一 种 基本 的 改变 类 型 一 一 语义 数据 改变 。 语 义 改变 发 生 在 数 
据 定义 改变 时 而 不 是 数据 内 容 改 变 时 。 举 一 个 简单 的 语义 = 
“| 暂 态 数据 





改变 的 例子 ,假设 已 创建 了 一 个 账户 持 有 者 的 数据 定义 。 
定义 包括 诸如 : 常 杰 数 所 
e 账户 ID 
e。 开户 人 姓名 图 5-8 在 传统 数据 库 设计 中 ， 
暂 态 数据 和 常态 数据 
”开户 人 地 址 是 自由 组 合 的 
e 开户 大生 罩 


这 个 数据 是 在 该 例 中 的 银行 应 用 最 开始 被 设计 、 构 建 和 发 布 的 时 候 在 系统 中 定义 的 。 

随 腹 时 代 发 展 ， 人 们 意识 到 开户 人 数据 还 应 包括 其 他 的 数据 类 型 ， 例 如 可 能 需要 为 开 
户 人 定义 添加 以 下 类 型 的 数据 : 

。 手机 电话 

。 传真 地 址 

。 电子 邮件 地 址 

新 数据 元 素 的 添加 就 是 一 种 语义 改变 。 

数据 可 以 发 生 内 容 上 的 改变 ， 也 可 以 发 生 语 义 上 的 改变 。 本 章 剩余 部 分 将 致力 于 讨论 
讲义 改变 而 非 内 容 改 变 。 


5.7 语义 暂 态 数据 


语义 暂 态 数据 指 的 是 那些 可 能 要 发 生 语义 上 改变 的 数据 。 有 些 形 
式 的 语义 数据 因 其 频繁 的 语义 改变 而 臭名 昭著 。 图 5-9 显示 了 一 些 语义 
不 稳定 的 数据 类 型 。 

组 织 结构 图 改变 得 出 奇 频繁 。 而 每 个 新 主管 都 认为 重组 公司 是 其 
职责 。 销 售 领域 永远 充满 着 重新 洗 牌 。 销 售 主 管 们 总 在 争论 俄亥俄 州 
更 运 合 哪里 一 一 东部 地 区 还 是 中 西部 地 区 。 一 个 主管 则 希望 俄亥俄 州 
在 茶 个 地 方 ， 同 时 其 他 主管 则 希望 在 另 一 个 地 方 。 图 5-9 暂 态 数据 

还 有 很 多 形式 的 数据 永远 处 于 语义 改变 中 。 数 据 是 语义 临时 的 ， 
随处 可 变 。 


5.8 语义 稳定 的 数据 
与 语义 改变 数据 相反 的 是 语义 稳定 的 数据 。 语 义 稳定 数据 是 常态 数据 一 语义 可 能 保 
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持 长 时 间 的 稳定 的 数据 。 基 本 的 销售 数据 是 语义 稳定 数据 的 一 个 好 例子 。 

图 5-10 描述 了 一 些 语义 上 稳定 的 数据 。 

基本 的 销售 数据 通常 包括 如 下 信息 : 

。 销售 日 期 

。 销售 总 量 

。 销售 项 目 

。 向 谁 出 售 

这 种 基本 销售 数据 在 今天 无 疑 是 适用 的 。 可 以 这 样 设想 ，4000 年 
前 古 罗 马 市 场 上 的 商人 和 中 国 北京 的 商人 对 同样 的 数据 感 兴趣 ,今天 
的 沃尔玛 也 一 样 。 

事实 是 ， 这 一 基本 数据 是 必要 的 ， 并且 在 电脑 出 现 前 很 入 人们 就 对 它 感 兴趣 。 并 且 可 
以 预见 ， 人 们 对 这 一 基本 数据 在 2100 年 仍然 感 兴 趣 ， 就 像 今天 一 样 。 

所 有 这 一 切 都 给 出 了 语义 稳定 的 数据 存在 的 结论 ， 在 这 里 被 称 为 常态 数据 。 

那么 ， 系 统 设 计 者 和 数据 库 设 计 者 如 何 处 理 语义 常态 数据 和 语义 暂 态 数据 ? 他 们 根 
本 就 不 关心 这 些 。 在 数据 库 设计 中 ， 数 据 的 语义 并 不 是 一 个 主要 考虑 的 因素 。 这 样 做 
的 一 个 直接 结果 就 是 ， 在 数据 库 设 计 中 语义 常态 数据 和 语义 暂 态 数据 通常 是 自由 混 


合 的 。 
5.9 混合 语义 稳定 和 不 稳定 数据 
图 5-11 显示 了 自由 混合 语义 常态 数据 和 语义 暂 态 数据 的 结果 。 





图 5-10 常态 数据 





图 5-11 每 次 业务 需求 变化 时 ,技术 基础 结构 变 得 很 混乱 


图 5-11 的 首 行 符号 表示 随 着 时 间 而 不 断 改 变 的 业务 需求 。 每 次 业务 需求 发 生 改 变 ， 
支持 它 的 技术 基础 设施 必须 随 之 改变 。 语 义 常态 数据 和 语义 暂 态 数据 是 用 于 支持 的 技术 
基础 设施 中 的 常见 组 成 部 分 ， 因 此 也 必须 适应 不 断 改变 的 业务 需求 。 所 以 ， 把 语义 常态 
和 语义 暂 态 数据 混合 在 一 起 简直 是 自 找 麻 烦 。 

图 5-12 显示 了 当 语 义 常态 和 语义 暂 态 数据 混合 后 ， 就 难以 适应 改变 了 。 

无 论 何 时 ,混杂 在 一 起 的 数据 如 果 发 生 改 变 将 都 会 
是 大 的 变动 ， 有 不 少 充分 的 理由 来 解释 这 种 情况 。 最 重 
要 的 理由 是 任何 变动 都 需 经 过 一 个 数据 转换 的 过 程 。 考 
虑 当 改 变 发 生 时 语义 常态 数据 会 发 生 什么 。 语 义 常态 数 
据 必须 转变 和 调整 ， 即 使 没有 任何 实际 内 容 上 的 改变 发 
生 。 而 企业 往往 有 大 量 语义 稳定 的 数据 的 事实 使 得 这 种 ”图 5-12 暂 态 和 常态 数据 硬 混在 一 起 
情况 更 加 糟糕 。 并 且 当 语义 常态 和 语义 暂 态 数 据 混 合 在 
一 起 时 ， 还 有 许多 其 他 理由 证 明 改 变 会 对 混合 在 一 起 的 这 两 种 数据 造成 严重 破坏 。 
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5. 10 分离 语义 稳定 和 不 稳定 数据 


因此 ， 问 题 自然 就 出 现 了 。 如 果 语 义 篆 态 数据 和 语义 暂 态 
数据 分 离 将 会 发 生 什 么 ”图 5-13 描述 了 这 种 设计 方法 。 





5, 11 减缓 业务 的 改变 图 213 es 
人 :五 0 丰 5 太 > ps i a 态 数 据 分 离 会 
语义 常态 数据 和 语义 暂 态 数据 的 分 离 ， 缓 解 了 通常 情况 下 发 生 什么 


不 断 改 变 的 业务 需求 所 带 来 的 破坏 ， 如 图 5-14 所 示 。 


>@> 全 > 氏 








图 5-14 当 和 暂 态 和 常态 数据 分 离 ， 由 变化 造成 的 摩擦 和 混乱 极 大 地 缓解 


尽管 图 5-14 表明 的 现象 是 真实 的 ， 但 为 什么 会 这 样 却 并 不 直观 。 有 几 个 很 好 的 理由 
可 以 说 明 分 离 语义 常态 数据 和 语义 暂 态 数据 对 将 IT 技术 基础 设施 从 不 断 改 变 的 业务 需求 
中 分 离 出 来 非常 有 利 。 考 虑 一 下 业务 需求 和 语义 常态 数据 一 起 改变 。 图 5-15 显示 , 语义 
常态 数据 受到 业务 需求 的 改变 影响 不 大 或 者 根本 不 受 影 响 。 语 义 稳定 的 数据 在 任何 业务 
需求 下 在 定义 和 性 质 上 都 是 语义 稳定 的 。 
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图 5-15 常态 数据 在 变化 中 是 稳定 的 


现在 考虑 当 改 变 发 生 时 语义 暂 态 数据 会 发 生 什 么 。 
当 语 义 暂 态 数据 需要 改变 时 ， 其 实 根 本 没有 发 生 什 么 改 
变 ， 而 是 创建 了 一 个 新 的 语义 快照 。 创 建 一 个 新 的 语义 


快照 比 打 开 一 个 数据 库 来 转换 或 改变 它 所 包含 的 数据 要 rr 


容易 得 多 。 因 此 ， 当 业务 改变 时 ， 只 是 产生 了 语义 暂 态 图 $16 ， 当 杰 化 发 生 时 、_ 个 新 
数据 的 一 个 快照 (图 5-16) 。 的 快照 被 创建 


5. 12 创建 数据 快照 
图 5-17 显示 了 业务 需求 随 着 时 间 的 改变 时 ， 语 义 暂 态 数据 会 发 生 什么 变化 。 


mi 


图 5-17 随 着 时 间 的 推移 ， ee 
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随 春 时 间 的 推移 ， 产 生 了 一 系列 快照 。 每 个 快照 是 按时 间 分 隔 的 ， 即 每 个 快照 有 一 个 
起 始 日 期 和 终止 日 期 。 为 了 确定 哪些 是 恰当 的 语义 定义 ， 查 询 必须 有 时 间 限 定 ， 这 对 任 
何 一 个 查询 都 是 很 自然 的 。 

图 5-17 表明 通过 采用 对 语义 和 暂 态 数据 产生 新 的 快照 而 不 是 试图 转换 旧 数 据 ， 管 理 那 
些 改变 就 变 成 了 一 件 非常 容易 做 的 事情 。 


5. 13 ”历史 记录 


这 种 管理 语义 暂 态 数据 改变 的 方法 有 一 个 附带 的 好 处 ， 就 是 创建 了 语义 暂 态 数据 的 历 
史记 录 。 记 录 如 图 5-18 所 示 。 
下 面 的 例子 突出 了 语义 数据 历史 记录 的 价值 。 考 虑 
一 个 对 研究 公司 组 织 结构 图 的 改变 感 兴趣 的 分 析 师 所 需 
的 信息 。 假 设 分 析 师 很 希望 看 到 该 公司 的 组 织 结构 图 在 -全 
1990 年 的 情况 。 有 了 语义 暂 态 数据 改变 的 历史 记录 ， 
分 析 师 可 以 通过 含有 公司 语义 暂 态 数据 的 每 个 快照 的 起 图 5-18 保持 一 段 时 间 的 数据 快 





止 日 期 很 容易 地 确定 和 检索 出 该 公司 在 1990 年 的 组 织 最 的 对 处 之 一 是 有 历史 


结构 图 。 

当 语 义 常 态 数据 和 语义 暂 态 数据 分 离 ， 并 且 这 些 数 据 形 式 成 为 技术 基础 设施 的 基础 
时 ， 企 业 能 够 轻松 地 抵挡 随时 间 而 来 的 数据 改变 。 这 样 ， 就 减轻 了 由 业务 改变 引起 的 系 
统 动 荡 ， 如 图 5-19 所 示 。 
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5. 14 数据 划分 


下 一 个 合乎 逻辑 的 问题 是 如 何 划分 数据 。 答 案 是 语义 常态 和 语义 暂 态 数据 在 今后 所 有 
的 数据 库 设计 中 应 该 被 物理 地 分 离 。 如 果 不 行 ， 还 有 一 些 技术 来 管理 上 述 的 DW2. 0 基础 
设施 。 

图 5-20 表示 了 基础 设施 管理 软件 如 何 管理 DW2. 0 数据 基础 设施 整体 。 
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图 5-20 技术 是 一 种 管理 常态 和 暂 态 数据 的 方式 ， 如 Kalido 
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5. 15 终端 用 户 的 观点 


商业 客户 不 是 生活 在 技术 世界 里 ， 而 是 生活 在 业务 世界 里 。 然 而 你 能 说 得 出 的 任何 关 
于 业务 的 事 就 是 业务 总 是 在 改变 。 这 种 改变 时 快 时 慢 , 但 改变 是 商业 人 士 的 一 种 生活 
A 

经 济 的 改变 ,法律 的 改变 ， 新 产品 的 出 现 和 消失 ， 竞 争 的 改变 ， 如 此 等 等 。 

商业 人 士 必须 能 够 擎 握 信 息 来 适应 这 些 改变 。 如 有 果 信 息 基础 设施 不 能 适应 这 改变 ， 那 
么 它 就 会 变 成 商业 用 户 肩 上 的 重担 ,信息 则 成 为 一 种 负担 而 非 优势 。 只 有 当 信 息 真 正 敏 
捷 时 ， 它 才能 成 为 企业 的 优势 。 

终端 用 户 不 需要 知道 “内 部 ”是 怎么 回 事 。 终 端 用 户 看 到 的 信息 基础 设施 就 像 大 多 
数 司 机 看 到 的 他 们 的 汽车 一 样 。 大 多 数 司 机 知道 有 一 个 引擎 ， 知 道 需要 天 然 气 和 石油 ， 
但 是 绝 大 多 数 司机 却 不 知道 引擎 的 内 部 运转 情况 。 对 大 多 数 司机 而 言 ， 当 汽车 发 动机 羡 
下 的 引擎 发 生 故 障 时 ， 可 以 开 癌 修 车 厂 或 者 修理 站 。 

这 同样 适用 于 商业 分 析 师 和 DW2. 0。 商 业 分 析 师 意识 到 DW2.0 的 存在 ， 但 他 不 知道 
详细 的 文 撑 它 的 基础 设施 。 所 有 的 商业 分 析 师 都 知道 ， 当 某 些 事情 出 错时 ， 就 是 寻找 一 
个 了 解 DW2. 0 基础 设施 的 数据 构架 师 的 时 候 了 。 


5. 16 总 结 


DW2.0 的 技术 基础 设施 需要 能 够 改变 。 当 技术 基础 设施 不 可 改变 时 ,不 久 以 后 企业 
的 业务 需求 就 无 法 在 数据 仓库 环境 中 反映 出 来 。 此 外 ， 向 数据 仓库 添加 的 新 需求 所 需 的 
时 间 越 长 ， 数 据 仓库 适应 业务 改变 的 问题 就 变 得 越 大 越 困 难 。 

为 数据 仓库 创建 一 个 可 随时 间 改 变 的 技术 基础 设施 有 两 种 方法 。 一 个 方法 是 使 用 专 为 
这 一 目的 设计 的 技术 ， 男 一 种 方法 是 分 离 语 义 常态 数据 和 语义 暂 态 数据 。 通 过 分 离 不 同 
语义 类 型 的 数据 ， 可 减轻 改变 所 产生 的 影响 。 


第 6 章 ”DW2.0 的 方法 与 途径 


为 了 成 功 实施 DW2. 0， 企 业 需 要 采用 一 种 螺旋 型 的 开发 方法 ， 以 快速 多 次 迭代 的 方 
式 完 成 数据 仓库 的 开发 。 每 次 选 代 的 开发 周期 不 应 超过 3 个 月 。 这 种 螺旋 式 开发 方法 是 人 
们 在 建立 数据 仓库 时 的 一 种 标准 惯例 且 已 在 世界 范围 内 证 明了 它 的 价值 。 

那么 螺旋 式 方法 论 到 底 是 什么 呢 ? 为 了 解释 这 一 方法 ， 我 们 有 必要 先 了 解 它 的 对 立 
面 ， 即 瀑布 式 开 发 方法 。 图 6-1 展示 了 一 个 
典型 的 瀑布 式 开发 方法 的 生命 周期 。 

滩 布 式 开发 方法 也 被 称 为 “SDLC”， 是 
“systems development life cycle (系统 开发 生 
命 周 期 ) ”的 缩写 。 历 史上 ， 瀑 布 式 方法 在 
传递 联机 业务 处 理 系统 方面 很 成 功 。 这 些 业 
务 系统 通常 有 很 长 的 项 目 周期 。 它 们 是 很 大 ”- 相 对 长 的 项 目 周期 
的 项 目 ， 并 且 所 有 需求 都 是 典型 的 预先 记 -很 大 的 工程 。 
载 。 在 数据 仓库 开发 的 早期 阶段 ， 即 DW 
1.0 的 阶段 ， 人 们 错误 地 认为 瀑布 式 方法 能 图 6-1 瀑布 式 开发 方法 
够 用 于 数据 仓库 项 目的 开发 。 


6. 1 螺旋 式 方 法 一 一 主要 特点 综述 


如 图 6-2 所 示 ， 与 瀑布 式 方法 相 比 ， 螺 旋 式 方法 非常 适合 于 那些 不 知道 自己 想 要 什么 
的 用 户 。 多 数 情况 下 ， 当 建立 一 个 数据 仓库 时 是 无 法 预先 得 到 所 有 业务 需求 的 。 这 不 是 
某 一 个 人 的 过 错 个 是 因 为 商业 人 士 拿 不 定 主意 ， 也 并 非 因为 信息 技术 工作 组 与 客户 过 
于 脱 广 而 无 法 了 解 其 需求 。 这 种 现象 很 正常 。 商 业 智能 的 能 力 通常 以 一 种 不 断 发 现 的 方 
式 发 展 ， 商 业 群 体 的 成 员 都 会 在 最 终 看 见 时 才能 知道 自己 需要 什么 ,， 而 且 一 旦 他 们 得 到 
了 目 己 需要 的 ， 他 们 就 会 理解 这 些 并 会 有 更 多 的 需求 。 













-适合 不 知道 自身 需求 的 用 户 

可 重用 性 分 析 | _ 适 合 使 用 发 现 模式 操作 的 
用 户 
-适合 得 到 结果 后 获知 自身 
需求 的 用 户 


图 6-2 螺旋 式 开发 方法 


80 货 6 曹 





商务 智能 需求 的 目标 设置 是 不 断 变 化 的 。 这 是 可 以 理解 的 ， 因 为 业务 也 是 在 不 断 变 化 
的 。 在 一 个 业务 系统 的 开发 过 程 中 ， 如 果 在 系统 发 布 后 对 一 个 业务 请 求 进行 修改 ,这 将 
被 视 为 失败 的 标志 。 相 比 之 下 ， 修 改 在 数据 仓库 /商务 智能 系统 中 则 被 视 为 一 件 好 事 ， 修 
改 需 求 被 视 为 成 功 的 标志 ， 因 为 这 意味 着 业务 正在 使 用 数据 仓库 ;数据 仓库 激发 了 思考 ， 
并 产生 了 对 更 多 不 同 信息 的 需求 。 如 果 没 有 任何 修改 需求 出 现 ， 数 据 仓库 的 主动 性 将 是 

个 败笔 。 简 言 之 ， 改 变 在 交易 处 理 系统 中 是 不 好 的 ， 而 在 数据 仓库 环境 下 是 好 的 。 

很 多 人 将 根植 于 面向 对 象 技术 的 迭代 方法 与 螺旋 式 方 法 摘 混 。 虽 然 两 者 有 很 多 相似 之 
处 ， 但 它们 是 完全 不 同 的 两 种 方法 。 

以 下 是 螺旋 式 方 法 的 一 些 特点 : 

。 螺旋 式 方法 扩展 了 原型 的 用 途 。 

。 螺旋 式 方法 中 的 主要 任务 可 以 以 任何 顺序 出 现 。 

。 任务 可 以 在 前 一 个 任务 结束 前 开始 。 

。 需要 一 种 不 同 的 项 目 管理 理念 。 

无 论 是 商业 群体 还 是 IT 产业 都 需要 做 出 文化 上 的 改进 。 
必须 管理 期 望 ， 因 为 数据 仓库 的 第 一 次 迭代 开发 不 是 很 完整 ， 还 需要 进一步 的 
改进 。 

。 每 三 个 月 一 发 布 的 频率 是 比较 典型 的 ， 需 要 严格 的 范围 控制 。 

在 使 用 第 一 代数 据 仓库 时 ， 有 学 者 一 直 呼 吁 使 用 螺旋 式 方法 。Larissa Moss 曾 关 于 该 
观点 出 版 过 多 本 著作 并 做 了 大 量 的 公共 讲座 。 有 的 团体 因 她 的 指导 受益 ， 而 忽视 该 方法 
的 团体 仍 处 于 煎熬 之 中 。 当 DW2.0 的 时 代 到 来 时 ， 从 过 去 的 错误 中 吸取 教训 是 很 有 必 
要 的 。 

图 6-3 阐述 了 Larissa Moss 的 “商务 智能 路 线 图 ”方法 。 





图 6-3 ” Larissa 的 三 种 螺旋 式 平行 开发 路 径 


乍 看 起 来 ， 在 图 6-3 中 左边 所 罗列 出 的 主要 部 分 与 瀑布 式 方法 别 无 二 致 。 事 实 上 ， 人 
们 在 瀑布 式 项 目 中 做 的 很 多 工作 也 同样 适用 于 螺旋 式 方法 。 然 而 正如 图 中 所 强调 的 ， 在 
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分 析 、 设 计 和 构建 等 作业 部 分 之 间 有 很 高 的 并 发 性 。 将 其 与 以 下 事实 联系 起 来 ， 即 作业 
可 以 在 螺旋 开发 生命 周期 的 任意 一 点 开始 (例如 ， 先 从 构建 开始 然后 向 上 继续 是 很 常见 
的 ) ， 用 户 可 以 看 到 这 种 方法 与 传统 的 开 开发 方法 有 着 极 大 的 不 同 。 

需要 对 团队 组 织 进行 深思 熟 虑 以 完成 并 发 任务 。 图 6-3 突出 了 三 种 自然 的 作业 分 组 : 
后 端 作业 、 前 端 作业 以 及 元 数据 作业 。 该 图 描绘 了 前 端 /后 端 作业 关于 原型 和 数据 库 设 计 
的 重合 部 分 。 元 数据 作业 虽然 出 现在 图 例 的 右边 ， 但 事实 上 与 其 他 的 平行 作业 有 高 度 的 
相互 依存 关系 。 元 数据 作业 添加 量 超过 前 端 作业 和 后 端 作业 会 更 加 精准 ,但 同时 也 降低 
了 可 读 性 。 项 目 管理 必须 能 够 识别 并 管理 这 种 相互 依存 的 关系 。 

值得 注意 的 是 ， 尽 管 一 个 数据 仓库 应 用 的 迭代 可 以 从 构建 开始 ， 但 是 除非 直到 证 明 、 
计划 、 分 析 、 设 计 、 构 建 和 部 署 等 步骤 全 部 完成 ， 和 否则 这 种 迭代 是 不 完整 的 。 要 想 建立 
一 个 应 用 ， 通 过 这 三 种 螺旋 式 作 业 路 径 可 能 会 需要 几 个 步 又 。 虽 然 理论 上 应 用 的 每 一 个 
步骤 都 要 完成 ， 但 通常 不 必 重 新 访问 “证 明 ”， 甚 至 也 不 必 完 成 每 条 路 径 上 的 一 些 其 他 
步骤 。 

图 6-4 可 以 让 我 们 对 三 种 平行 螺旋 式 开发 过 程 有 更 深刻 的 理解 。 





数据 管理 路 径 数据 提交 路 径 元 数据 管理 路 径 
图 6-4 Larissa 的 三 种 平行 螺旋 式 方法 开发 路 径 


蝶 旋 式 方法 利用 几 个 临时 的 可 交付 成 果 ， 或 者 称 为 “碎片 "， 来 产生 一 个 应 用 。 值 得 
注意 的 是 ,在 图 6-4 中 ， 每 一 个 螺旋 碎片 都 在 整个 应 用 范围 内 扮演 细小 但 意义 非凡 的 角 
色 。 每 个 碎片 都 无 法 一 次 性 完成 构建 。 图 中 展示 了 每 种 作业 路 径 的 两 个 碎片 ， 事 实 上 每 
种 路 径 都 有 多 个 碎片 且 数 量 几 乎 不 会 相同 。 

每 个 碎片 的 范围 必须 保持 尽 可 能 小 ， 另 外 要 非常 小 心地 管理 范围 ， 以 免 出 现 范围 大 到 
不 可 控制 的 变化 。 

蝶 旋 式 方法 的 目标 是 建立 可 重用 资源 的 详细 清单 。Larissa 在 图 6-5 中 阐述 了 如 何 动态 
地 重新 规划 项 目 限 制 ， 以 实现 质量 最 大 化 和 范围 最 小 化 。 

使 用 螺旋 式 方 法 会 帮助 团体 从 废 件 和 返工 的 死 循环 中 解脱 出 来 ， 从 而 向 着 资源 重用 的 
文化 风格 迈进 。 这 种 新 的 思想 着 眼 于 可 重用 资源 满足 业务 需求 ， 以 便 更 快 更 好 更 廉价 地 
完成 任务 。 

第 二 代数 据 仓 库 需 要 抛弃 传统 的 投资 回报 率 的 方式 (ROI) 。 这 种 方式 导致 了 许多 组 
织 建立 相继 的 “ 单 点 解决 方案 ”( 或 者 数据 集 市 )， 很 少 或 根本 不 关注 任何 已 提交 成 果 的 
可 重用 性 。ROI 的 宗旨 是 :“ 越 快 完 成 越 好 ， 并 取得 一 定 回报 。” 实际 上 最 初 的 成 功 是 不 
能 持久 的 ， 并 且 数 据 结构 相当 脆弱 (不 可 改变 ) ， 这 一 点 似乎 不 符合 ROI 思维 模式 。 

在 DW2.0 中 ,成 功 取决 于 总 资产 收益 率 (ROA)。 数 据 被 重用 了 吗 ? 元 数据 被 重用 
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螺旋 式 方 法 的 目的 : 建立 可 重用 组 件 的 详细 清单 
优先 权 由 高 至 低 






“重组 的 可 重用 组 件 ” 
(John Zachman ) 





图 6-5 项 目 限 制 重组 和 组 件 重 用 


本 吗 ? 典型 的 业务 规则 被 重用 了 吗 ? ETL 逻辑 是 可 重用 和 可 扩展 的 吗 ? 表示 层 的 所 有 组 件 
都 是 可 重用 和 可 修改 的 吗 ? 

引 和 人 螺旋 式 方法 是 第 二 代数 据 仓库 迈 向 成 功 的 关键 一 步 。 为 了 使 螺旋 开发 方法 获得 成 
功 ， 有 一 些 事情 是 组 织 可 以 且 必须 做 到 的 。 企 业 数据 需要 采用 一 种 全 新 的 方法 。 本 章 的 
剩余 部 分 将 讨论 这 一 方法 ， 即 所 谓 的 “七 流 法 ”。 


6.:9 吃 流 法 一 一 总 览 


一 个 基本 的 前 提 是 商业 智能 策略 应 被 看 作 是 一 个 程序 ， 而 并 非 项 目 。 这 样 的 商业 智能 
策略 应 该 随 着 业务 需求 变化 而 不 断 地 得 到 磨 研 ， 变 得 越 来 越 复杂 。 要 在 不 断 变化 的 业务 
环境 中 实现 和 保有 这 一 策略 ， 要 求 提供 更 多 的 解决 方法 ， 不 仅仅 是 “盒子 里 的 数据 仓库 ” 
或 是 30 天 到 90 天 的 “神奇 的 解决 办 法 ”。 

那么 ， 为 了 在 商业 智能 /数据 仓库 程序 中 实现 持续 的 成 功 ， 到 底 需 要 哪些 因素 呢 ? 下 
文 将 给 出 一 个 高 度 总 结 的 答案 。 从 图 6-6 开始 解释 了 七 流 法 一 一 一 个 已 经 被 证 明了 的 商业 
智能 计划 和 发 布 框架 。 

理解 “七 流 法 ”的 关键 是 这 样 一 个 事实 : 每 一 个 事件 流 是 根据 不 同 的 步调 行进 的 。 
每 一 个 流 是 同步 开始 和 并 发 驱动 的 ， 并 且 需 要 监控 和 协调 。 图 例 的 组 织 是 无 先后 顺序 的 。 


6. 3 企业 参考 模型 流 


第 一 个 事件 流 建 立 了 一 个 企业 数据 模型 (图 6-7) 并 持续 地 对 其 进行 维护 。 当 然 这 并 
不 是 通过 说 “让 这 个 世界 停止 吧 ， 我 要 建立 一 个 巨大 的 企业 数据 模型 ”来 实现 的 ， 而 是 
按 对 象 域 增 量 建立 的 (例如 ， 消 费 者 、 产 品 等 ) 。 
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PROJECT MANAGEMENT 
7 种 高 层 的 事件 流 TIMELINE 
企业 参考 模型 
(以 对 象 为 单位 ) 


企业 知识 协调 
(以 制品 为 单位 ) 


信息 工厂 开发 
(以 应 用 为 单位 ) 
-业务 发 现 

-设计 和 构建 
-实施 和 首次 发 布 
-运行 和 维护 ( 实时 进行 ) 
数据 描述 和 映射 


( 以 数据 源 为 单位 ) Wim = 
etes oo 07 SR RAO ea 
数据 清理 i 

( 以 元 素 为 单位 ) 


基础 设施 管理 ( 以 组 件 为 单位 ) i i 
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-策略 、 标 准 和 过 程 
-平台 和 工具 
-无数 据 存储 库 管理 (包括 建立 等 ) 


总 的 质量 数据 管理 ( 以 属性 为 单位 ) 
-信息 大 可 下 HS HS HS Hb SS $ 


EE 工业 模型 方针 


CY 


建 模 期 : 按 对 象 域 整合 





动人 





图 6-6 DW/BI 项 目 中 的 “七 流 法 ” 





扫 ， 

锚 赴 
建 模 期 :建立 一 个 已 
准备 好 的 数据 仓库 模型 






逆向 工程 源 模 型 


源 分 析 & 包 含 的 业务 规 
则 & 利 用 数据 描述 工具 





图 6-7 企业 数据 模型 流 


6.4 企业 知识 协调 流 


下 一 条 事件 流 ， 即 知识 协调 流 ， 承 担 着 从 三 个 数据 发 现 流 (例如 ， 企业 数据 模型 ， 
主 套 工厂 开发 ， 数 据 归档 ) 中 获取 不 同 的 产品 并 理解 这 些 发 现 ， 如 下 所 示 : 
。 企业 数据 模型 : 企业 数据 模型 通常 需要 自 顶 向 下 地 分 析 企 ， 








企业 数据 
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中 识别 出 语 境 、 概 念 和 高 度 的 逻辑 视图 。 分 析 工 作 从 主要 的 业务 主题 (顶部 ) 开 
始 ， 到 个 体 贡献 (底部 ) 结束 。 

信息 工厂 开发 : 在 该 流 中 ， 建 立 事件 是 一 个 主题 接着 一 个 主题 或 者 是 一 个 应 用 接 
着 一 个 应 用 的 -这 一 过 程 是 由 “紧急 问题 ”驱动 的 ， 也 就 是 说 业务 必须 最 先 解决 
最 高 优先 权 问 题 。 企 业 需 要 解决 这 些 问题 ， 进 而 作出 决策 ， 并 且 将 资金 高 效 地 投 
入 底层 生产 线 。 这 些 问 题 可 以 按 主题 分 组 ， 例 如 增长 率 、 利 润 、 风 险 等 。 回 答 
这 些 问 题 所 需 的 信息 会 在 下 一 步 中 给 出 ， 最 终 定义 产生 紧急 问题 的 答案 信息 的 
数据 。 

数据 归档 : 该 流 需 要 自 底 向 上 的 数据 分 析 。 公 司 系统 中 相对 详细 的 数据 将 受到 检 
测 和 分 析 。 数 据 归档 识别 并 有 助 于 解决 数据 元 余 ; 有 助 于 识别 记录 中 正确 的 数据 
系统 和 不 应 成 为 数据 仓库 源 的 系统 ; 使 模型 建立 者 能 在 数据 元 素 和 数据 个 体 间 建 
立 映射 ， 并 将 公司 的 主要 数据 个 体 进行 归 类 。 第 18 章 将 会 对 数据 归档 作出 详细 
解释 。 

很 明显 ， 以 上 三 种 数据 发 现 源 都 需要 捆绑 在 一 起 并 以 某 种 方式 解决 ， 这 就 是 企业 知识 
协调 流 的 运行 过 程 。 一 个 工件 接着 一 个 工件 ， 这 三 个 数据 发 现 流 的 输出 是 一 致 的 。 建 立 
一 个 稳 态 模型 用 来 提供 组 织 数据 的 可 重用 知识 ， 由 此 可 靠 的 数据 将 会 适时 交付 给 股东 。 

这 是 知识 协调 者 利用 Zachman 框架 作为 分 类 模式 对 可 重用 工件 进行 管理 的 最 佳 方法 。 
图 6-8 阐述 了 利用 Zachman 框架 背景 作为 “思考 工具 ”时 ， 知 识 是 怎样 自 顶 向 下 和 自 底 
向 上 进行 协调 的 。 


6.5 信息 工厂 开发 流 


这 条 流 叫 做 信息 工厂 开发 流 。 信 息 工 厂 就 在 这 里 构建 。 工 厂 一 般 来 说 是 一 个 主题 接着 
一 个 主题 建立 的 。 每 一 个 主题 都 包含 若干 个 紧急 问题 。 对 于 一 个 主题 ， 例 如 增长 率 ， 经 
常 跨 多 个 对 象 域 ， 例 如 消费 者 和 产品 。 主 题 通常 按 应 用 分 组 ， 例 如 一 个 代理 人 积分 板 等 。 
该 流 属于 螺旋 式 方法 的 范畴 ， 同时 也 是 “驱动 流 ”， 它 能 对 其 他 六 个 流 设 定 优先 权 。 


6.6 数据 归档 定位 流 

下 个 事件 流 是 数据 归档 和 映射 流 。 这 里 发 生 的 事件 是 ， 检 查 联 机 交易 处 理 源 系统 ， 搞 
清楚 数据 就 其 质量 与 完整 性 来 说 在 系统 中 呈现 怎样 的 状态 。 数 据 归档 的 这 一 输出 使 得 模 
型 建立 者 可 以 将 原 数 据 映射 到 信息 工厂 中 各 种 不 同 的 目标 。 第 18 章 将 进一步 讨论 数据 归 
档 流 。 
6.7 数据 纠正 流 〈 旧 称 数据 清理 流 ) 

该 事件 流 是 按 属性 审查 相应 的 源 系 统 ， 决 定 哪 些 数据 需要 被 纠正 、 补 充 或 清除 ， 并 决 
定 采 用 何 种 纠正 法 则 。 这 一 部 分 也 将 在 第 18 章 具体 讨论 。 
6.8 基础 设施 流 


如 图 6-9 所 示 ， 该 流 主要 关注 对 信息 工厂 可 扩展 性 的 架构 支持 ， 包 括 对 于 人 力 、 资 
源 、 和 平台、 工具、 政策、 标准 和 过 程 的 考量 。 该 流 是 一 个 组 件 接着 一 个 组 件 开始 的 。 


83 


DW2. 0 的 方法 与 途 和 在 


王 放 线 4 录 六 动 详 玫 mmqoeZ 册 陛 娶 区 灿 访 电 8-9 国 











3StHdH31N3 
ONINOILONNj 


JO1IBNHUOD 
-qns 


3SIHdH31iN3 
59NINOLONnd 





j0)DBjiU0D 
-9nS 


(ULX3JNOO 
-40-1NO) 
SNOIV1 

“-N3S3Hd3y 
Q3livL13g 









(LX3INOOD 
40-1N0O) 
SNOIiYL 
-NI3S3Hd3U 
aQ31ivi3a 






ners 








(NYOISAHd) 
1300W 
入 DQOTONHO3L 


(TYODISKHd) 
1300W 
ADOONHIO3L 











sosuUalDejeUOD sg 门 = oI 
(9 S000IG J05SYJ0Jd)} 





Bl9h 5utssaoojd = 19h) 
IUBN3 LUBISAS = SU] 


UOIWaSSY UONIY = SUBBYY 


19Uubisadg UOIHGSSY [BiNIoNJIS = pu3 











(v91907) 
13gO0W 
W341SAS 





(YIIDO) 
17300W 
W31SAS 





Motaumboud Teo 





(NYNLd3ONOO) 
13G0W 
3SiHNdH3IN3 | 





(TYNLd3ONOY) 
1300W 
3SlHdH31N3 








JBUUBId J3UUBld 











(YNLX31NOO) 
3dOYS 








(IvNLX3LNOO) 
3dOoS 





ouM 31dO3d SJB8UM HHUONU3N MOH NOILONNMJ JEUHf viva 





&O 甸 6 莫 








BI 策略、 标准 和 过 程 的 管理 
。 负责 为 企业 信息 工厂 数据 库 和 数据 库 工 具 设计 和 实施 最 佳 的 技术 平台 

。 对 全 部 的 BI 基础 设施 ， 包 括 元 数据 存储 库 和 DQ 工具 等 ， 进 行 一 系列 的 设计 、 实 施 和 维护 
性 能 和 使 用 监控 

提高 环境 性 能 





图 6-9 基础 设施 管理 流 组 件 构成 


6.9 整体 信息 质量 管理 流 


最 后 的 但 并 不 是 最 不 重要 的 一 点 是 ， 整 体 信 息 质 量 管理 流 关心 的 是 数据 质量 监控 和 工 
序 改进 ， 是 一 个 工序 接着 一 个 工序 实现 的 。 环 境 中 的 特定 数据 元 素 随 时 会 受到 检测 ， 并 
且 其 质量 会 受到 监测 并 随时 上 报 。Larry English 制定 了 最 全 面 和 最 严格 的 方法 来 处 理 信 息 
质量 管理 。 他 的 整体 信息 质量 管理 方法 (TIQM) 以 前 被 称 为 整体 质量 数据 管理 (TQdM ) ， 
是 由 几 个 主要 工序 组 成 的 。 图 6-10 阐述 了 “评估 信息 质量 ”工序 。 


TIQM 方 法 
. 工序 P2: 获得 信息 质量 


| 四 

i ry 全 EE J 

ee BS De 懂 芷 3 "9) 

5 人 2 4 
* 








信息 
质量 圈 图 

P31 P4:1,..PS:1 
二 IQ 报 告 

5 上”P3.1, P4.1, P5.1 


L. English, Improving Data Warehouse and Business Information Oli p156 ， 使 用 经 过 许可 
图 6-10 整体 信息 质量 管理 流 中 的 信息 质量 评估 


请 注意 图 6-10 中 这 样 一 个 进行 中 的 工序 ， 参见 P2.8 和 P2.6 之 间 的 递归 循环 。 在 
DW2.0 中 ， 为 了 确保 工序 是 在 控制 中 的 ， 组 织 需 要 定期 测试 信息 的 质量 。 正 如 老话 所 说 ， 
“不 做 考量 则 无 法 达成 ”。 

在 从 精确 性 、 完 整 性 和 唯一 性 等 角度 衡量 完 信 息 质 量 问 题 之 后 ， 我 们 应 该 计算 一 下 低 
质量 信息 在 下 层 流 工序 中 的 代价 ， 包 括 商 务 智能 工序 的 代价 。 这 样 为 工序 改进 提供 了 业 
务 案 例 ， 用 以 在 源头 处 找 出 缺点 的 根本 原因 ， 并 彻 查 信息 价值 链 。 如 图 6-11 所 示 ， 这 是 
TIQM 工序 的 第 三 步 ， 即 “衡量 低 质量 信息 的 代价 与 风险 ”。 

至 少 应 按照 P3. 3 的 步骤 去 衡量 低 质 量 信息 的 代价 。 如 果 认 为 机 会 成 本 是 “无 形 ” 的 
时 ， 那 么 将 会 因 错 过 客户 收入 和 失去 客户 终身 价值 而 付出 相当 可 观 的 代价 。 当 出 现 以 下 
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TIQM 方 法 
工序 P3: 测量 低 质量 信息 的 代价 与 风险 





信息 代价 分 析 
P4.1, P3.7 


低 质量 信息 直接 
代价 分 析 
P4.1, P5.1, P3.7 


低 质量 信息 机 会 
成 本 分 析 
P4.1, P5.1, P3.7 


流程 改进 的 
投资 回报 率 


*ROI= 投 资 回 报 
L. English, Improving Data Warehouse and Business Information Quality，p214 ， 使 用 经 过 许可 


图 6-11 测算 低 质量 信息 的 代价 以 及 TIQM 工序 改进 的 投资 回报 率 


低 质 量 信息 时 ， 例 如 ， 姓 名 拼写 错误 、 地 址 错误 、 客 户 记录 丢失 、 记 账 错误 以 及 物品 投 
迎 错 误 等 ， 都 会 引起 实际 的 财产 损失 。 

在 搞 清楚 低 质 量 信 息 的 代价 后 ， 我 们 能 够 着 眼 于 工序 改进 的 高 回报 区 域 。 通常 采用 的 
改进 方法 是 Pareto 方法 一 一 从 最 重要 的 到 次 重要 的 ， 依 次 类 推 . “计划 -实施 - 检查 - 行 
动 改 进 循环 ”这 一 工序 在 TIQM P4 步 又 中 给 出 , “改进 信息 处 理 质量 ， 在 图 6-12 中 给 出 。 








TIQM 方 法 
工序 P4: 提高 信息 处 理 质 量 





计划 -实施 -检查 -行动 ( PDS/CA ) 





L. English, Tmproving Data Warehouse and Business Information Quality，p290， 使 用 经 过 许可 


图 6-12 TIQM 中 改进 信息 处 理 质 量 工序 


工序 4 是 TIQM 的 核心 工序 ， 需 要 在 “信息 质量 管理 ”标签 中 使 用 “质量 ”这 一 字眼 。 
正 左 这 一 工序 ， 消 除了 引起 过 程 失败 、 信 息 碎片 和 重 写 的 缺陷 。 当 某 组 织 习惯 使 用 这 一 工序 


ht 

它 将 会 处 于 世界 一 流 的 地 位 。 步 又 P4. 1 建立 了 一 个 基于 组 织 的 项 目 管理 准则 的 工序 改 
进 建议 。 步 又 P4. 2 首先 分 析 和 明确 了 引起 缺陷 信息 的 破裂 工序 的 根本 原因 或 原因 ， 然 后 定 
义 了 流程 改进 ， 这 将 消除 根本 原因 和 防止 或 者 大 大 减少 信息 缺陷 。 步 骤 P4. 3 实施 改进 ， 并 
观察 和 保证 实现 了 改进 的 目标 。 步 又 P4. 4 分 析 结 果 ,， 保证 改进 是 有 效 的 ， 并 将 已 有 的 经 验 
存档 。 步 又 P4. 5 将 改进 落实 到 每 一 个 工序 进行 的 地 方 ， 并 监管 该 工序 。 

欲 了 解 更 多 关于 TIQM 工序 的 知识 ， 请 读者 自行 阅读 Larry English 的 《提高 数据 仓库 
和 商务 信息 质量 》 中 的 第 6、7、9 章 。 请 注意 TIQM 的 P4 工序 “提高 信息 处 理 的 质量 
编号 为 P5 。English 先生 将 其 改 为 较 前 的 工序 用 于 数据 校正 。 


6. 10 ”总 结 


数据 仓库 /商业 智能 项 目 方 法 的 七 种 流 的 每 一 tt st ed styl et ed 
并 且 都 采用 不 同 的 和 相应 合适 的 工作 方法 : 

e 流 1: 以 对 象 为 单位 建立 的 企业 参考 模型 。 

。 流 2: 以 工件 为 单位 建立 的 企业 知识 协调 。 

e 流 3: 以 主题 为 单位 建立 的 信 是 2 全 玫 丽 5 

e。 流 4: 以 源 为 单位 建立 的 数据 归档 和 和 定位。 

e。 流 5: 以 属性 为 单位 建立 的 数据 校正 。 

e。 流 6: 以 组 件 为 单位 建立 的 基础 设施 管理 。 

e 流 7: 以 工序 为 单位 建立 的 整体 信 息 质 量 管理 。 

每 个 流 以 不 同 的 比率 生产 可 交付 物 。 精 明 的 DW/BI 项 目 管理 者 将 认识 到 这 些 不 同比 
率 和 节奏 的 存在 ， 将 每 个 并 发 流 的 工作 优先 权 进 行 同步 ,并 向 组 织 发 布 有 意义 的 信息 。 
DW/BI 项 目 管理 将 产生 总 体 项 目 路 线 图 ， 如 图 6-13 所 示 。 
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图 6-13 .基于 “七 流 法 ”的 DW/BI 工程 路 线 图 


“七 流 法 ”是 设计 DW/BI 项 目的 一 个 框架 和 工具 ， 并 有 助 于 自身 适应 快速 的 螺旋 式 
开发 。“ 七 流 法 ”和 螺旋 式 开 发 方法 的 相互 作用 在 以 下 几 个 图 表 中 得 到 生动 的 描绘 。 
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图 6-14 描述 了 螺旋 式 开 发 方法 在 信息 工厂 开发 流 中 的 位 置 。 
事件 流 
企业 参考 模型 










企业 知识 协调 
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图 6-14 DW/BI“ 七 流 法 ”中 的 螺旋 式 开发 方法 。 如 何 将 螺旋 式 开 发 方法 与 “七 流 法 ”融合 在 一 起 
图 6-15 描述 了 “七 流 法 ”和 螺旋 式 开发 方法 之 间 的 关系 。 





图 6-15 “七 流 法 ”一 一 为 螺旋 式 开发 方法 作 准备 


螺旋 式 方法 已 被 证 明 是 建立 数据 仓库 最 为 行 之 有 效 的 方法 。 螺 旋 式 方法 因为 “七 流 法” 
的 实施 ， 其 功能 更 为 强大 。 如 果 对 企业 数据 模型 足够 关注 ， 那 么 ， 协 调 企 业 知 识 、 主 动 进 行 数 
据 归 档 和 定位 、 主 动 进行 数据 清洗 、 主 动 管理 基础 设施 、 建 立正 确 的 全 体 数据 质量 管理 文化 则 
可 以 加 快 螺旋 式 DW/BI 开发 的 迭代 。 这 种 组 合 方法 能 够 使 得 开发 团队 不 会 触及 众多 路 障 一 
数据 模型 、 规 则 和 定义 随时 可 用 ， 提 前 得 知 数据 质量 异常 ， 适 当 的 基础 设施 已 然 到 位 。 

螺旋 式 开发 和 “七 流 法 ”的 好 处 是 为 季度 发 布 的 业务 提供 规律 的 数据 。 目 前 的 挑战 
尽 励 论 是 全 行 业 还 是 商务 团体 都 必须 在 文化 方面 做 出 改变 。 做 得 最 成 功 的 组 织 是 通过 巾 
旋 式 方法 与 “七 流 法 ” 相 结 合 的 培训 ， 加 之 对 两 种 方法 第 有 深刻 经 验 者 的 指导 ， 来 实现 
这 种 文化 变革 的 。 这 种 组 合 的 DW/BI 项 目 方法 也 必须 以 正确 的 管理 结构 为 支撑 。 


第 7 章 “ 统计 处 理 和 DW2.0 


数据 仓库 最 重要 的 功能 之 一 就 是 对 统计 分 析 的 支持 。 如 果 一 个 机 构 拥 有 一 个 数据 仓 
库 ， 但 却 没 有 利用 它 进 行 统 计 分 析 ， 那 么 该 数据 仓库 的 一 个 主要 功能 就 没有 得 以 开发 利 
用 。 从 传统 意义 上 来 讲 ， 某 些 行业 会 较 其 他 行业 更 多 地 使 用 统计 分 析 。 如 保险 、 手 工 制 
造 以 及 医学 研究 等 机 构 ， 它 们 都 广泛 地 使 用 了 统计 分 析 。 但 实际 上 所 有 的 行业 都 使 用 了 
统计 分 析 ， 只 是 程度 不 同 而 已 。 

从 终端 用 户 的 角度 来 看 ， 通 过 统计 分 析 得 到 的 数据 从 根本 十 不 同 于 以 其 他 方式 得 到 的 
_ 信息 。 例 如， 统计 产生 的 数据 往往 用 来 做 战略 性 决策 分 析 ， 很 少 用 来 做 局 部 性 分 析 。 

统计 分 析 跟 其 他 形式 的 分 析 不 同 的 男 一 个 原因 是 统计 分 析 必 须 涉 及 大 量 的 数据 ， 而 其 
他 形式 的 分 析 往 往 只 能 看 到 很 少 一 部 分 数据 。 

统计 数据 分 析 和 其 他 分 析 不 一 样 的 第 三 个 原因 是 统计 分 析 所 涉及 的 信息 往往 具有 较 其 
他 形式 的 分 析 更 长 的 时 间 跨 度 。 对 于 统计 分 析 来 说 ， 翻 看 到 5 年 、10 年 甚至 更 久之 间 的 
数据 都 是 很 正常 的 。 

DW2.0 文 持 统计 分 析 和 处 理 ， 就 像 它 支持 其 他 形式 的 分 析 一 样 。 根 据 统 计 分 析 的 类 
型 和 使 用 频率 的 不 同 ，DW2. 0 可 以 直接 或 者 间接 使 用 。 


7.1 两 种 类 型 的 处 理 


统计 分 析 处 理 是 DW2. 0 的 核心 部 分 。 图 7-1 显 
示 了 数据 仓库 中 两 种 常见 的 处 理 类 型 一 一 基本 查询 
和 统计 分 析 。 

图 7-1 表明 基本 查询 仅 使 用 很 少 的 一 些 资源 ， 因 
为 其 仅 需 要 很 少 的 数据 (例如 ,数据 记录 )。 相 反 ， 
典型 的 统计 分 析 需 要 很 多 的 资源 来 满足 统计 查询 ， 
所 以 需要 大 量 的 数据 记录 。 

看 待 查 询 和 统计 分 析 基 本 区 别 的 另 一 种 方法 是 
比较 一 个 典型 的 查询 处 理 和 一 个 典型 的 统计 分 析 的 
输出 ， 如 图 7-2 所 示 。 

图 7-2 表明 一 个 查询 仅 查 找 并 给 出 少量 数据 。 在 
这 个 例子 中 ， 查 询 得 到 了 Luiz Pizani 的 个 人 记录 ， 通 
过 这 条 记录 我 们 找到 了 他 的 银行 账户 ， 为 满足 这 次 ” 图 7-1 统计 分 析 中 用 到 的 资源 远 远 
查询 ， 需 要 分 析 的 数据 也 仅仅 是 一 条 或 两 条 数据 。 多 于 其 他 形式 的 处 理 








”查询 |- Luiz Pizani， 周 二 一 天 的 记录 为 $2568.08 





统计 分 析 | - 通过 25 998 个 测试 实例 所 得 的 均值 为 22 190 
图 7-2 ”基本 查询 得 到 的 结果 和 统计 分 析 差 别 很 大 
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而 在 统计 分 析 中 ， 毫 无 疑问 需要 大 量 的 数据 记录 。 如 图 7-2 所 示 ， 查 询 的 结果 涉及 统 
计 平 均值 或 者 平均 数 的 计算 ， 要 算出 这 个 平均 值 ， 就 要 访问 近 26 000 条 记录 。 进 一 步 讲 ， 
统计 查询 所 需 的 全 部 记录 需要 一 次 性 访问 。 直 到 所 有 记录 可 用 时 才 开 始 计 算 平均 值 。 


7.2 使 用 统计 分 析 


利用 统计 分 析 可 以 做 很 多 事情 。 最 简单 的 统计 分 析 可 以 是 建立 一 个 数据 分 析 文件 。 数 
据 的 分 析 是 指数 据 实体 内 容 的 统计 总 结 。 数 据 统计 分 析 可 以 回答 以 下 典型 的 问题 有 多 
少 条 数据 记录 ? 最 大 值 或 最 小 值 是 多 少 ? 平均 数 ; 中 值 、 最 频 值 又 都 是 多 少 ? 有 没有 超 
出 指定 范围 的 值 ? 是 否 存在 指定 范围 内 的 边缘 值 ? 这 些 数据 值 的 分 布 有 什么 规律 ? 

所 有 诸如 以 上 的 这 些 问 题 都 可 以 添加 到 数据 实体 的 分 析 中 。 数 据 实体 的 分 析 可 以 使 分 
析 员 看 到 数据 集 的 概述 一 一 就 好 比 看 到 一 片 森林 ， 而 不 是 单独 的 树木 。 

数据 的 统计 分 析 除 了 以 上 的 用 途 之 外 ， 还 有 许多 其 他 方面 的 应 用 。 例 如 对 企业 数据 和 
外 部 数据 的 比较 。 其 中 ， 企 业 数据 的 生成 和 发 展 是 比较 的 第 一 步 ， 然 后 再 捕捉 外 部 数据 
并 将 它们 置 于 相同 的 环境 条 件 中 。 然 后 就 可 以 完成 比较 了 。 

为 了 解释 典型 的 企业 数据 与 外 部 数据 的 比较 ， 图 7-3 给 出 了 很 好 的 例子 ， 它 描述 了 可 
口 可 乐 公司 的 数据 与 整个 饮料 行业 销售 额 数据 的 对 比 情况 。 





menenos 整个 饮料 行业 的 总 销售 量 
ww we mw 9] 口 可 乐 公司 的 总 销售 量 
图 7-3 企业 信息 与 行业 信息 的 比较 


对 于 人 饮料 行业 分 析 员 来 说 ， 最 感 兴趣 的 事情 莫 过 于 比较 统计 中 的 高 峰 与 低谷 。 他 们 往 
往 想 知道 在 全 行业 呈现 一 种 下 降 的 趋势 下 可 口 可 乐 的 销量 是 否 还 在 增长 》 或 者 是 在 信行 
业主 现 一 种 上 升 的 趋势 下 可 口 可 乐 的 销量 是 否 却 在 下 降 ? 在 这 两 条 销售 额 曲 线 之 间 是 下 
存在 着 一 种 通用 的 关联 模式 ? 

拥有 对 于 企业 信息 和 外 部 信息 进行 比较 的 能 力 可 以 使 我 们 真正 拥有 宝贵 的 商业 油 
察 力 。 


7.3 比较 的 完整 性 


数据 的 有 效 性 是 比较 统计 分 析 的 一 个 关键 问题 。 严 并 的 统计 学 工作 者 一 般 会 确定 他 们 
比较 的 对 象 是 否 为 同一 事物 一 一 是 苹果 和 苹果 比较 还 是 苹果 和 橘子 比较 。 回 到 图 7.3 的 合 
于 ， 人 饮料 行业 的 销售 额 与 可 口 可 乐 公司 的 销售 额 相 比较 是 否 是 合理 有 效 的 ? 如 果 人 饮料 销 
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售 包括 啤酒 和 和 葡萄酒， 那么 将 可 口 可 乐 和 其 比较 是 否 还 是 公平 且 有 意义 的 呢 ? 如 宁可 口 
可 乐 包括 诸如 美 汁 源 的 饮料 呢 ? 那 比较 美 汁 源 和 百事 可 乐 的 销售 人 额 是 否 是 合理 (或 者 明 
智 ) 的 呢 ? 

外 部 数据 和 内 部 数据 的 比较 引入 了 一 些 问 题 ， 这 些 问 题 都 得 在 统计 比较 可 以 被 认为 是 
合理 有 效 之 前 加 以 解决 。 

除了 对 内 部 和 外 部 数据 的 比较 之 外 ， 统 计 分 析 还 有 许多 其 他 重要 的 用 途 。 其 中 一 项 就 
是 确定 数据 发 展 趋势 和 数据 的 模型 。 

支持 统计 分 析 的 数据 仓库 中 的 业务 案例 就 是 一 个 非常 好 的 例子 。 

分 析 无 处 不 在 ， 甚 至 在 考虑 统计 分 析 本 身 时 都 需要 分 析 活 动 。 简 单 查询 的 目的 就 是 找 
到 能 马上 满足 需要 的 信息 。 然 而 ， 当 出 现 统 计 分 析 时 ， 它 一 般 会 采用 一 种 完全 不 同 的 分 
析 形 式 ， 称 之 为 启发 式 分 析 。 

启发 式 分 析 是 这 样 一 种 分 析 ， 它 属于 发 现 过 程 中 的 一 部 分 。 一 个 事物 可 以 被 认为 是 局 
发 式 的 ， 如 果 它 有 助 于 我 们 学 习 、 发 现 或 者 解决 问题 。 在 发 现 过 程 中 ， 分 析 员 并 不 知道 
数据 中 隐 含 的 信息 。 他 们 要 在 并 不 知道 数据 包含 什么 也 不 知道 自己 期 待 什么 的 情况 下 开 
始 去 挖掘 或 者 学 习 数 据 的 内 容 。 


7.4 局 发 式 分 析 


局 发 式 分 析 员 有 这 样 的 观点 :“ 我 并 不 知道 我 想 要 什么 ,但 当 我 看 见 它 的 时 候 我 就 会 
知道 是 不 是 想 要 的 就 是 它 。” 在 启发 式 分 析 中 ， 下 一 次 分 析 迭 代 是 由 当前 分 析 的 结果 决定 
的 。 计 划 好 分 析 的 迭代 次 数 或 者 分 析 能 得 出 什么 结果 ， 对 于 真正 的 启发 式 分 析 来 说 是 不 
可 能 的 。 

商业 领域 中 ， 抱 有 启发 式 分 析 态 度 的 人 随处 可 见 。 或许 只 有 员工 自己 真正 知道 自己 的 
所 需 。 

图 7-4 描述 了 启发 式 环境 中 分 析 的 一 般 流 程 。 





Jan Feb Mar Apr May Jun Jul Aug Sep Gct Nov Dec 





图 7-4 统计 处 理 的 一 个 特点 是 启发 式 分 析 


统计 处 理 和 启发 式 分 析 存 在 着 一 定 的 关联 性 。 在 启发 式 分 析 中 有 这 样 一 个 情况 ， 但 其 
不 常见 ， 就 是 偶尔 地 进行 数据 冻结 。 数 据 冻结 后 ， 系 统 便 不 能 吸收 新 的 数据 。 启 发 式 统 
计 处 理 需 要 偶尔 这 样 做 的 原因 是 ， 我 们 需要 检查 分 析 的 结果 是 由 算法 还 是 数据 的 改变 产 
生 的 。 

例如 ， 一 个 分 析 员 针对 一 个 数据 实体 运行 了 一 次 分 析 ， 发 现 数据 返回 的 平均 值 为 67。 
接着 ， 他 改变 了 所 用 的 算法 并 再 次 运用 该 分 析 ， 这 次 返回 一 个 新 的 平均 值 98。 ;这 时 的 问 
题 就 是 ， 分 析 结 果 的 改变 是 由 算法 功能 改变 还 是 由 数据 的 变化 造成 的 ?如 果 第 二 个 分 析 
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在 一 个 不 同 的 数据 集 下 进行 ， 那么 分 析 结 果 的 改变 很 有 可 能 是 数据 的 不 同 引 起 的 ， 而 不 
是 由 计算 过 程 中 所 使 用 算法 的 改变 引起 的 。 


7.5 冻结 的 数据 


当 操作 后 的 结果 有 了 较 大 变化 时 ， 需 要 冻结 计算 中 所 
使 用 的 数据 。 冻 结 数据 意味 着 结果 的 改变 可 以 肯定 地 归结 
为 算法 的 变化 而 非 其 他 的 原因 。 


图 7-5 描述 了 用 于 支持 启发 式 处 理 和 结果 分 析 的 冻结 ~ 
数据 。 图 7:5 有 了 时候 数据 需要 被 冻结 


7.6 探索 型 处 理 


统计 处 理 的 本 质 之 一 是 它 经 常 进行 反复 的 探索 过 程 。 在 许多 类 型 的 信息 处 理 中 ， 分 析 
过 程 往往 建立 在 内 容 、 形 式 和 结构 都 已 知 的 数据 上 。 而 另外 一 些 类 型 的 信息 处 理 则 恰恰 
相反 ， 它 们 往往 对 数据 的 内 容 、 形 式 和 结构 一 无 所 知 。 而 统计 分 析 就 特别 适合 这 用 类 型 
的 分 析 一 一 探索 型 处 理 。 

图 7-6 描述 了 探索 型 处 理 的 过 程 。 

DW2. 0 数据 仓库 环境 所 面临 的 挑战 之 
一 就 是 如 何 最 好 地 支持 统计 处 理 。 当 然 
DW2. 0 拥有 支持 统计 处 理 所 需 的 重要 数 
据 。 事实 上 ，DW2.0 架构 中 包含 了 统计 分 
析 的 关键 组 成 部 分 。 然 市 ， 关 于 如 何 使 用 
DW2.0 环境 下 的 数据 仍然 有 很 多 需要 解决 
的 问题 。 


7.7 分 析 频 率 


统计 分 析 的 频率 和 DW2. 0 对 统计 处 理 的 支持 有 着 密切 的 关系 。 图 7-7 表明 随 着 统计 
分 析 频 率 的 改变 ， 支 持 DW2. 0 的 基础 设施 也 会 相应 变化 。 

图 7-7 表明 随 着 统计 分 析 频 率 的 增长 ， 对 单独 的 探索 工具 的 需求 也 就 越 来 越 大 。 如 果 
统计 分 析 一 年 只 做 一 次 ,那么 基本 DW2. 0 的 基础 设施 就 可 以 单独 胜任 这 个 水 平 的 处 理 。 
如 采 一 个 季度 一 次 ,那么 DW2. 0 基础 设施 可 以 勉强 处 理 。 如 果 一 个 月 一 次 ， 那么 DW2.0 
基础 设施 或 许可 以 处 理 。 但 如 果 频 率 更 高 而 DW2.0 构架 又 没有 额外 的 性 能 增加 ， 那 么 便 
无 法 处 理 了 。 当 然 在 很 多 机 构 中 统计 分 析 常 常 是 一 小 时 一 次 ， 那 么 需要 将 单独 的 探索 下 
具 添 加 到 数据 仓库 中 ， 以 保证 分 析 处 理 的 正常 进行 。 


7.8 探索 工具 


探索 工具 提供 了 这 样 一 个 平台 ， 在 它 上 面 可 以 进行 统计 处 理 并 对 核心 DW2. 0 基础 设 
施 不 会 产生 影响 。 探 索 工 具 和 DW2. 0 环境 在 物理 空间 上 相 分 离 ， 它 们 位 于 不 同 的 物理 平 
台 上 。 

如 果 需 要 的 话 ， 探索 工具 可 以 被 冻结 一 段 时 间 。 如 有 必要 它 还 可 以 包含 外 部 数据 。 虹 








图 7-6 探索 过 程 





找 出 可 能 发 生 的 事件 
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图 7-7 统计 分 析 的 频率 决定 是 否 需要 单独 的 探索 工具 
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型 的 探索 工具 常常 包含 有 DW2.0 环境 下 的 数据 的 子 集 。 它 很 少 从 DW2.0 环境 中 和 直接 复 
制 ， 甚 至 连 一 部 分 也 很 少 复制 。 

探索 工具 中 的 数据 具有 最 低 粒 度 级 。 另 外 ， 它 还 常常 引入 大 量 的 历史 数据 。 这 么 做 的 
原因 在 于 ， 为 了 满足 探索 分 析 的 需求 常常 需要 数据 的 细节 和 历史 跨度 。 

探索 工具 中 的 数据 结构 往往 是 混合 型 的 。 一 些 数 据 在 磁盘 上 以 表格 的 形式 存储 ， 还 有 
一 些 数据 分 布 在 文件 中 。 这 些 平 铺 的 文件 往往 最 适合 于 做 统计 分 析 。 

探索 工具 往往 包含 大 量 同一 种 类 型 的 数据 。 探 索 工具 中 数据 的 种 类 较 少 ， 而 数据 记录 
却 很 多 。 


7.9 探索 型 处 理 数 据 的 来 源 


探索 工具 可 以 从 很 多 地 方 得 到 所 需 的 数据 资源 一 一 例如 从 整合 区 、 归 档 区 和 近 线 区 。 
图 7-8 显示 了 探索 工具 从 归档 区 和 近 线 区 获取 数据 的 情况 。 然 而 ， 在 DW2.0 中 ， 整 合 区 
是 探索 工具 获取 数据 的 主要 来 源 。 


探索 工具 





图 7-8 归档 数据 和 近 线 数据 都 可 以 被 探索 工具 使 用 


有 时 探索 工具 也 从 交互 区 获取 数据 。 然 而 ， 从 交互 区 获取 数据 有 几 个 注意 事项 ， 先 要 
保证 交互 区 的 服务 不 被 干扰 ， 即 如 果 探 索 数据 从 交互 区 抽取 的 话 ， 我 们 需要 特别 小 心 维 
护 该 区 的 性 能 水 平 。 第 二 个 要 注意 的 是 ， 如 果 数 据 从 交互 区 提取 进入 到 探索 工具 中 ， 我 
们 必须 明白 这 些 数据 不 能 是 可 审查 的 。 举 例 来 讲 ,一 组 上 午 10 : 31 分 从 交互 区 提取 的 数 
据 可 能 在 一 分 钟 后 就 不 存在 了 。 如 果 以 上 注意 事项 都 考虑 到 了 ， 那 么 交互 区 就 可 以 为 探 
索 工 具 提 供 合理 的 数据 了 。 


7. 10 更 新 探索 数据 


图 7-9 描述 了 利用 DW2. 0 环境 数据 对 探索 工具 数据 的 更 新 。 

进入 到 探索 工具 的 数据 的 更 新 周期 必须 仔细 考虑 。 在 DW2.0 的 其 他 部 分 ， 数据 的 尝 
动 会 很 快 ， 只 要 出 现 数据 就 开始 流动 。 而 探索 工具 的 数据 只 在 探索 分 析 师 需要 时 才 会 流 
进来 。 这 种 需求 频率 可 能 是 天 、 周 或 者 是 月 ， 这 取决 于 探索 分 析 师 的 需要 。 


7.11 基于 项 目的 数据 


通常 探索 工具 是 基于 项 目的 ， 也 就 是 说 管理 层 需要 对 一 个 具体 问题 进行 研究 。 收 集 相 关 
的 数据 ， 对 数据 进行 分 析 ， 然 后 把 分 析 结 果 送 至 管理 层 。 一 旦 数据 被 送 至 管理 层 并 被 研究 
完 ， 数 据 要 么 被 丢弃 ， 要么 被 保存 起 来 。 所 以 基于 项 目的 探索 工具 并 不 是 一 个 永久 性 结构 。 
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图 7-9 从 DW2.0 环境 到 探索 工具 数据 的 定时 更 新 


然而 一 些 机 构 却 想 拥有 永久 性 的 探索 工具 。 在 这 种 情况 下 ， 当 需要 进行 分 析 时 ， 探 索 
工具 需要 随时 可 用 ， 而 其 中 的 细节 数据 则 要 经 常 更 新 。 
图 7-10 表明 探索 工具 中 的 数据 可 以 是 永久 的 或 者 临时 的 。 


7. 12 ”数据 集 市 和 探索 工具 


分 析 员 经 常 认为 ， 探 索 工具 往往 就 是 或 相似 于 数据 集 市 。 实 际 上 ， 数 据 集 市 和 探索 工 
具有 很 大 的 不 同 。 一 些 主 要 的 区 别 如 下 : A 
探索 工具 拥有 细节 数据 ， 而 数据 集 市 则 多 为 概要 或 集成 数据 。 
探索 工具 是 用 来 发 现 知 识 的 ， 而 数据 集 市 则 仅仅 是 传播 信息 的 。 
探索 工具 服务 于 数学 工作 者 ， 而 数据 集 市 则 为 商业 分 析 员 提供 帮助 。 
探索 工具 是 基于 平 铺 文 件 的 ， 而 数据 集 市 则 是 基于 OLAP 的 。 
探索 工具 经 常 是 临时 性 的 ， 而 数据 集 市 则 具有 永久 性 。 
探索 工具 依赖 于 统计 软件 ， 而 数据 集 市 则 往往 依赖 于 商业 智能 化 软件 。 
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图 7-10， 探 索 工 具 可 以 是 永久 性 结构 或 者 临时 性 结构 


以 上 就 是 探索 工具 和 数据 集 市 的 主要 区 别 。 
图 7-11 表明 探索 工具 和 数据 集 市 是 构架 中 有 很 大 差异 的 组 成 部 分 。 


7. 13 数据 回流 


另 一 个 有 趣 的 问题 是 让 数据 从 探索 工具 流 回 到 DW2. 0 环境 是 否 是 明智 的 。 事 实 上 这 
么 做 是 允许 的 ， 但 是 有 一 些 前 提 条 件 必须 满足 。 

以 下 是 一 些 所 需 的 条 件 : 

e 诛 索 工具 输出 的 数据 必须 能 够 在 整个 企业 环境 的 不 同 地 方 使 用 。 如 果 输 出 数据 仅 
仅 被 用 在 一 两 个 地 方 ， 那 么 将 它 置 于 DW2.0 环境 下 便 没 有 什么 意义 。 

。 DW2.0 环境 中 需要 有 和 探索 工具 数据 相关 的 数据 审核 跟踪 及 计算 。 

。 如 果 探 索 工 具 中 的 数据 要 放 入 DW2.0 环境 中 ， 并 且 该 探索 工具 是 基于 项 目的 ， 那 
么 这 些 数 据 往 往 是 受 限 制 的 一 次 性 提供 的 数据 。 换 句 话说， 如 果 要 放 入 DW2.0 环 








非 结构 化 结构 化 
7-11 数据 仓库 和 探索 工具 有 很 大 的 不 同 


境 中 的 数据 来 自 于 临时 性 资源 ， 就 不 要 指望 这 些 资 源 成 为 进入 DW2. 0 数据 仓库 的 
数据 的 永久 提供 者 。 
图 7-12 描述 了 在 正确 情况 下 ， 潜 在 的 数据 从 探索 工具 流向 DW2. 0 数据 仓库 的 反馈 。 


7. 14 在 内 部 使 用 探索 数据 


探索 工具 在 使 用 时 一 定 要 并 愤 。 大 多 数 情况 下 ， 探索 工具 提供 的 分 析 仅 仅 被 内 部 使 
用 。 这 是 因为 探索 工具 用 到 的 数据 并 没有 像 流 入 或 流 过 DW2.0 环境 的 数据 那样 经 过 严格 
的 ETL 处理。 因此 ， 当 为 审计 师 和 审查 员 提 供 报告 和 数据 时 ， 如 果 使 用 从 探索 工具 得 到 
的 数据 ， 那 么 便 没有 意义 。 相 反 ， 只 有 “正式 的 ”数据 才 可 以 被 用 在 正式 的 报告 中 。 我 
们 需要 记 住 ,报告 用 到 的 信息 最 终 往往 会 出 现在 金融 评论 其 至 新 闻 中 ， 因 此 将 基于 探索 
工具 数据 的 报告 用 在 公共 场合 中 是 很 不 明智 的 ， 原 因 在 于 这 些 报告 可 能 并 不 是 通过 适宜 
的 计算 得 到 的 ， 甚 至 还 可 能 包含 错误 的 数据 。 
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图 7-12 数据 有 可 能 从 探索 工具 流入 DW2.0 


7. 15 企业 分 析 员 的 观点 


很 多 企业 并 没有 利用 它们 所 拥有 的 数据 的 统计 处 理 功能 。 因 此 ， 它 们 对 所 拥有 的 信息 
帘 源 并 没有 充分 的 利用 。 但 是 也 有 一 些 行业 人 员 很 早 便 发 现 了 信息 的 价值 ， 并 且 可 以 对 
这 些 数 据 进行 统计 处 理 。 这 些 典 型 的 行业 人 员 包 括 保险 统计 师 和 研究 工程 师 等 。 

众所周知 ， 在 保险 和 工程 制造 部 门 ， 统 计 处 理 扮演 着 非常 重要 的 角色 。 进 一 步 ， 这 种 
角色 很 快 被 行业 所 认可 ， 并 雇用 了 相关 类 型 的 分 析 人 员 

如 有 果 要 使 那些 以 前 没有 广泛 使 用 统计 分 析 的 企业 开始 广泛 地 使 用 这 项 技术 ， 那 么 就 需 
要 一 些 成 功 的 案例 说 服 它们 。 这 些 成 功 案例 并 不 是 凭空 魔术 般 生 成 的 ， 而 使 用 统计 分 析 
通 闸 是 “ 奥 硕 工厂 ”计划 的 结果 。 因 为 以 前 没有 成 功 的 案例 ， 所 以 企业 并 不 愿意 在 统计 
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分 析 上 投资 。 因 此 只 有 一 两 个 对 项 目 感 兴趣 的 实验 工人 凑 在 一 起 ， 去 做 “看 看 会 发 生 什 
么 ”的 项 目 。 这 些 项 目 通常 很 小 ， 因 为 他 们 并 没有 正式 的 资金 支持 。 

假如 这 些 分 析 人 员 能 够 找到 一 些 有 趣 而 有 用 的 东西 ， 那么“ 自 励 ”工作 项 目 便 会 进 
入 公司 的 主流 。 一 旦 建立 相关 项 目 ， 统 计 分 析 的 功能 便 会 迅速 发 展 。 

领导 统计 处 理 项 目的 个 人 必须 具有 相关 的 数学 背景 。 这 种 背景 可 以 是 正式 或 者 非 正 式 
的 ， 但 进行 统计 分 析 必 须 具备 这 种 思考 方式 ， 这 需要 对 数学 的 深层 次 理解 。 


7. 16 总 结 


查询 有 两 种 类 型 一 一 分 析 查 询 和 探索 查询 。 探 索 查 询 涉及 了 大 量 的 数据 并 且 需 要 很 长 
时 间 。 探 索 查 询 需 要 粒状 的 和 历史 数据 。 典 型 的 探索 处 理 利 用 了 统计 技术 。 . 

有 时 探索 数据 需要 被 冻结 ， 冻 结 一 般 发 生 在 局 发 式 处 理 过 程 中 。 在 启发 式 处 理 过 程 
中 ， 分 析 的 下 一 步 完 全 取决 于 当前 分 析 的 结果 。 

探索 工具 建立 的 目的 仅仅 是 为 了 支持 探索 处 理 。 是 否 需 要 建立 探索 工具 完全 取决 于 统 
计 分 析 发 生 的 频率 。 如 果 统 计 分 析 发 生 的 频率 较 低 ， 那 么 便 没有 必要 建立 专门 的 探索 工 
具 ， 反 之， 可 能 需要 建立 专门 的 探索 工具 。 

统计 工具 建立 在 项 目 基础 上 。 如 果 项 目 完成 ， 那 便 没有 必要 保留 相关 的 探索 工具 。 


第 8 章 数据 模型 与 DW2. 0 


DW2.0 年 一 个 非常 复杂 的 “世界 ”， 它 涉及 了 很 多 不 同 的 方面 ， 所 以 很 容易 会 纠缠 在 
具体 细节 中 并 很 快 迷失 方向 。 因 此 ， 在 使 用 DW2.0 时 ， 保 持 自 己 的 观点 非常 重要 。 


8. 1 智能 路 线 图 


因此 ， 数 据 模型 就 成 了 DW2. 0 一 个 必 备 的 组 成 部 分 。 数 据 模型 在 很 多 方面 都 扮演 着 
通 往 DW2.0 其 他 部 分 的 智能 路 线 图 的 角色 。 图 8-1 显示 了 DW2.0 中 数据 模型 的 这 种 
角色 。 

在 DW2.0 中 建立 路 线 图 有 很 多 种 原因 ， 但 最 重要 的 原因 或 许 是 建立 DW2. 0 并 不 是 一 
蹊 而 就 的 。 相 反 ， 它 是 每 次 建立 一 步 ， 通 过 很 长 的 时 间 来 完成 的 。 另 外 ， 它 的 建立 是 由 
很 多 人 而 非 单个 人 完成 的 。 

为 了 协调 不 同人 员 的 工作 以 及 适应 不 同类 型 的 用 户 ， 非 常 有 必要 建立 一 个 路 线 图 一 
数据 模型 ， 数 据 模型 描述 了 DW2. 0 各 部 分 如 何 结合 在 一 起 。 如 果 没 有 数据 模型 ， DW2. 0 
各 部 分 的 工作 便 被 割裂 开 来 ， 从 而 导致 系统 的 混乱 。 


8.2 数据 模型 和 企业 


数据 模型 是 依据 企业 本 身 而 建立 的 ， 它 模拟 了 企业 的 各 个 部 分 。 
图 8-2 描述 了 建立 在 企业 上 的 数据 模型 。 





图 8-1 数据 模型 扮演 着 智能 路 线 图 的 角色 图 8-2 数据 模型 来 源 于 企业 自身 


8.3 整合 范围 


建立 数据 模型 的 第 一 步 是 定义 整合 范围 。 整合 范围 就 是 描述 数据 模型 中 包含 什么 和 不 
包 仿 什么。 整合 范围 是 十 分 重要 的 ， 因为 没有 它 数 据 模 型 便 会 无 休止 地 建立 下 去 ,其 至 
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可 能 包含 宇宙 级 的 数据 。 当 这 种 现象 发 生 时 ， 数 据 模 型 的 建立 永远 都 不 会 傈 止 。 

图 8-3 显示 了 整合 范围 的 定义 是 建立 数据 模型 的 起 点 。 

数据 模型 建立 在 企业 的 数据 基础 之 上 。 
大 多 数 机 构 都 有 大 量 的 数据 。 这 样 ， 即 使 定 
义 了 整合 范围 ， 如 果 分 析 员 不 够 谨 愤 ， 数 据 
模型 的 建立 还 是 会 无 休止 地 进行 ， 除非 对 粒 
状 型 数据 和 概括 型 或 聚合 型 数据 有 明确 的 区 
别 。 粒 状 型 数据 是 指 体现 最 底层 意义 的 数 
据 。 一 个 人 的 姓名 是 粒状 型 数据 ， 生 日 也 是 
柱状 型 数据 ， 薪 水 在 一 个 时 段 内 可 以 看 成 是 . i ny- 
粒状 再 数据 。 Ss “= 

慨 插 型 数据 刚 古 请 如 一 天 的 交 务 量 、 一 。 男 8-3 建立 数据 模型 的 第 一 步 是 确定 整合 范围 
个 月 的 收入 、 一 年 里 企业 的 员工 数 、 一 个 季 \ 
度 内 的 国民 生产 总 值 之 类 的 数据 。 
8.4 区别 粒 状 型 数据 和 概括 型 数据 


关于 为 什么 要 区 别 粒状 型 数据 和 概括 型 数据 主要 有 以 下 几 个 原因 : 
。 概括 型 数据 远 远 多 于 粒状 型 数据 。 
。 概括 型 数据 变化 速度 比 对 其 建 模 过 程 
要 快 。 
。 概括 型 数据 自身 携带 描述 其 是 如 何 形成 
的 算法 。 
如 果 数 据 模型 中 包括 概括 型 数据 ， 那 么 该 模 
型 将 肯定 不 能 完成 。 
图 8-4 表明 粒状 型 数据 是 数据 模型 的 构造 。 图 8-4 数据 模型 专注 于 粒状 型 数据 ， 而 
i 不 是 聚合 型 或 概括 型 数据 
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8.5 数据 模型 的 层次 


数据 模型 中 有 不 同 的 层次 。 在 标准 数据 模型 中 ， 有 以 下 几 个 层次 : 

e ERD 层 一 一 实体 关系 层 ， 是 数据 模型 中 的 最 高 层 。 

。 中 间 层 模型 一 一 即 dis， 或 数据 项 集 。 

e。 底层 模型 一 一 即 物理 层 ， 是 数据 建 模 的 最 底层 。 

ERD 层 是 模型 中 较 高 的 屋 ， 可 以 很 快 被 构建 好 。ERD 层 描 述 了 公司 业务 中 的 主要 领 
域 以 及 它们 之 间 的 关系 。 中 间 层 模型 ( 即 数据 项 集 ) 描述 了 数据 模型 中 的 关键 字 、 属 性 
以 及 细 市 数据 之 间 的 关系 。 底 层 模 型 描述 了 数据 模型 的 物理 特性 ， 例 如 数据 的 物理 属性 、 
索引 、 外 键 ， 等 等 。 

模型 的 层次 越 低 ， 细 节 层 次 就 越 高 。 而 模型 的 层次 越 高 ， 模 型 就 越 完善 。 

图 8-5 显示 了 数据 模型 的 各 个 层次 。 

事实 上 ， 像 DW2.0 那样 拥有 不 同 层次 模型 的 复杂 结构 在 现实 中 也 很 常见 ， 并 不 是 一 
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项 新 的 或 者 陌生 的 技术 。 比 如 图 8-6 所 示 的 世界 地 图 就 是 一 个 很 好 的 例子 。 

在 图 8-6 中 ， 我 们 可 以 看 到 美国 地 图 、 得 克 萨 斯 州 的 地 图 以 及 得 克 萨 斯 州 达拉斯 市 的 
交通 图 。 每 一 张 地 图 都 和 其 他 地 图 存在 着 联系 。 得 克 萨 斯 州 可 以 在 美国 地 图 中 找到 ， 达 
拉 斯 市 可 以 在 得 克 萨 斯 州 的 地 图 中 找到 ， 因 此 它们 之 间 存 在 着 相关 性 。 

每 一 张 地 图 都 有 不 同 的 细节 层次 。 在 美国 地 图 上 可 
以 找到 美国 的 州 际 高 速 公 路 系统 ， 在 得 克 萨 斯 州 的 地 图 
上 可 以 找到 得 克 萨 斯 285 写 线 路 ， 而 道 顿 的 Grapevine 
路 则 可 以 在 达拉斯 附近 找到 ， 因 此 细节 层次 在 以 上 的 地 
图 中 依次 递减 。 

相应 地 ， 每 幅 地 图 的 完整 性 随 着 层次 的 降低 而 减 
小 。 美 国 地 图 只 能 显示 美国 的 情况 而 不 能 显示 巴西 的 ， 
得 克 萨 斯 州 地 图 只 能 显示 得 克 萨 斯 州 而 不 能 显示 亚 利 又 
那州 或 者 田纳西 州 的 情况 ， 同 理 达 拉 斯 市 地 图 不 能 显示 
又 得 森 或 者 德尔 里 奥 的 情况 。 

不 同 层次 的 映射 结合 在 一 起 组 成 了 一 个 有 层次 的 
整体 。 

同 理 ， 如 果 数 据 模型 结合 在 一 起 ， 那 么 组 成 DW2.0 
环境 的 各 种 系统 便 有 了 新 的 意义 和 秩序 。 图 8-7 显示 了 
数据 模型 以 及 它 给 信息 系统 带 来 的 秩序 。 

DW2.0 环境 中 有 很 多 不 同 的 模型 ， 不 能 想当然 地 图 8-5 数据 模型 有 不 同 的 层次 
认为 它 仅 有 一 个 模型 。 











图 8-6 不 同 层次 数据 模型 之 间 的 关系 
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图 8-7 数据 模型 使 DW2.0 有 秩序 


8.6 数据 模型 和 交互 区 


第 一 批 模型 位 于 交互 区 中 的 应 用 当中 。 通 常 ， 每 一 项 应 用 对 应 一 个 单独 的 数据 模型 。 
应 用 数据 模型 是 由 应 用 需求 决定 的 。 对 性 能 的 需求 是 建立 应 用 数据 模型 需要 考虑 的 一 个 
主要 方面 。 贯 穿 整个 应 用 环境 ， 特 别 是 那些 存在 OLTP 事务 的 地 方 ， 数 据 模 型 都 是 根据 性 
能 需求 建立 的 。 当 数据 模型 考虑 了 性 能 时 才 会 变 得 合理 化 ， 贯 穿 系统 的 合理 数据 流 会 产 
生 高 的 性 能 表现 。 而 这 种 合理 数据 流 正 是 由 合理 化 的 数据 模型 将 数据 放 在 一 起 来 形 
成 的 。 

图 8-8 描述 了 不 同 的 应 用 以 及 与 它们 对 应 的 模 
型 。 在 图 8-8 中 需要 注意 的 是 ， 每 个 不 同 的 应 用 都 
对 应 不 同 的 模型 。 


8.7 企业 数据 模型 


除了 以 上 介绍 的 数据 模型 外 ， 还 有 其 他 的 数 
据 模 型 。 接 下 来 要 提 到 是 企业 数据 模型 。 企 业 数 
据 模 型 是 这 样 一 个 模型 : 它 显示 了 从 应 用 型 环境 
中 得 到 的 数据 如 何 形成 企业 数据 。 

如 果 企 业 数 据 模型 位 于 交互 层 和 整合 层 之 间 ， 
那么 它 就 是 DW2.0 环境 的 数据 模型 。 

ee 种 整合 的 方式 描述 企业 所 有 的 数据 。 作 为 一 个 对 企业 级 整合 的 需求 
的 例子 ， 假 定 有 三 个 应 用 : 应 用 A 的 数据 以 天 为 单位 存储 ， 且 货币 以 美元 计量 ， 人 的 性 
别 记 为 M 或 者 下 ; 成 贿 生 以 天 为 晤 全 者 杖 数 汉 货币 以 加 元 计算 ， 性 别 记 为 MALE 或 者 
FEMALE; 应 用 C 以 小 时 为 单位 存储 数据 ， 货 币 以 澳元 计算 ,性 别 记 为 X 或 者 Y。 这 样 ， 
数据 在 企业 的 视角 来 看 是 以 天 为 单位 来 存储 的 ， 货 币 使 用 欧元 ， 性 别 则 被 标注 为 MEN 或 
者 WOMEN。 数 据 模 型 真实 反映 了 企业 看 待 信息 的 视角 ， 是 一 种 整体 信息 的 视角 。 
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图 8-8 应 用 数据 模型 形成 应 用 
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8. 8 模型 转化 


图 8-9 表明 当 数 据 从 应 用 区 或 交互 区 流入 整合 区 时 发 生 的 数据 的 基本 转化 。 值 得 注意 
的 是 ， 当 数据 进入 整合 区 时 ， 通 常会 按 对 象 域 存储 。 

当 数 据 流 进入 近 线 区 时 ， 数 据 模型 通常 不 会 发 生 改 变 。 因 为 近 线 环境 需要 尽 可 能 地 横 
仿 交 互 环境 ， 因 此 近 线 环境 下 的 数据 模型 和 交互 区 数据 模型 完全 一 样 。 

图 8-10 表明 数据 进入 近 线 区 时 数据 模型 并 没有 改变 。 
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图 8-9 数据 发 生根 本 转变 ,应 用 数据 变 图 8-10 数据 从 整合 区 流入 近 线 区 ， 数 
为 企业 数据 ， 企 业 数据 模型 决定 据 模 型 没有 发 生变 化 
数据 的 转换 


最 后 ， 数 据 流 入 归档 区 。 此 时 ， 数 据 模型 可 能 改变 也 可 能 不 改变 。 在 一 些 情况 下 ， 数 
据 进 入 归档 区 后 的 状态 和 在 整合 区 时 相同 ， 此 时 数据 模型 就 没有 改变 。 

但 在 另外 一 些 情况 下 ， 数 据 流入 归档 区 时 会 发 生根 本 的 改变 。 在 这 种 情况 下 ， 数 据 流 
入 了 工 一 个 可 称 为 反 转 列表 格式 的 地 方 。 当 数据 流入 反 转 列表 格式 时 ， 它 便 被 重新 安排 为 
一 系列 简单 的 列表 。 

归档 分 析 或 许 需 要 这 样 一 个 转换 ， 因 为 它 可 以 使 归档 环境 下 的 数据 更 易于 查找 和 分 
析 。 当 然 ， 归 档 环 境 下 的 数据 可 以 放 在 企业 数据 模型 格式 中 或 者 反 转 列 表格 式 中 。 

图 8-11 显示 了 数据 流入 归档 区 的 情况 。 


8.9 数据 模型 和 非 结构 化 数据 


对 于 DW2.0 的 结构 化 部 分 ， 数 据 模型 是 适合 并 且 有 用 的 。 但 在 DW2. 0 的 非 结 构 化 部 
分 ， 数 据 模型 也 常常 被 用 到 。 不 难 理解 ， 数 据 模型 对 非 结构 化 部 分 的 重要 性 并 没有 其 对 
结构 化 部 分 的 重要 性 大 。 

在 DW2.0 的 非 结 构 化 部 分 ， 使 用 数据 模型 的 第 一 个 地 方 是 外 部 分 类 过 程 。 外 部 分 类 
通常 用 于 对 数据 进行 分 组 或 分 类 ， 使 这 些 数据 规范 化 或 者 合理 化 。 
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图 8-11 数据 流入 归档 区 后 ,数据 模型 可 能 保持 原样 ， 可 能 会 变 成 反 转 列表 格式 模型 或 者 两 者 缘 有 


图 8-12 表明 数据 模型 被 用 来 进行 外 部 分 类 。 

非 结 构 环 境 中 使 用 数据 模型 的 第 二 个 地 方 是 建立 内 部 数据 模型 。 内 部 数据 模型 通常 被 
用 来 描述 文本 实体 的 内 容 和 结构 ， 这 些 文本 实体 往往 非常 大 。 

自 先 ， 非 结构 化 数据 被 收集 起 来 。 接 着 这 些 数据 会 按 不 同 的 对 象 加 以 组 织 。 通 过 这 些 
对 象 可 以 建立 相应 的 SOM ( 自 组 织 映 射 )。 一 旦 SOM 建立 起 来 ， 非 结构 化 文本 的 核心 主 
题 以 及 不 同 主题 间 的 关系 也 就 随 之 形成 。 通 过 这 些 基 本 信息 ， 内 部 数据 模型 便 建立 起 
汪 ] = 

图 8-13 描述 了 通过 非 结 构 化 文本 实体 中 的 对 象 建 立 内 部 数据 模型 的 过 程 。 


mm" 








图 8-12 外 部 数据 模型 被 用 来 构造 图 8-13 文档 可 以 归 约 为 内 部 对 象 ， 接 着 内 部 对 象 可 
非 结 构 环境 中 的 外 部 分 类 以 建立 内 部 数据 模型 


8. 10 企业 用 户 的 观点 


企业 用 户 对 数据 建 模 过 程 至 关 重 要 。 事 实 上 ， 从 正确 的 角度 来 看 ， 数 据 模型 是 终端 用 
户 如 何 看 待 DW2. 0 中 数据 的 一 种 具体 化 形式 。 
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换 种 方式 说 ， 如 果 数 据 模 型 来 源 于 除 终端 用 户外 的 其 他 资源 ， 或 者 终端 用 户 没 有 检查 
并 承认 数据 模型 的 合理 性 ， 那 么 DW2. 0 中 形成 的 数据 便 是 不 太 合 适 的 了 。 

这 也 束 意 味 看 终端 用 户 需 要 从 开始 就 要 加 入 ， 因 为 在 DW2.0 建立 的 开始 就 要 建立 数 
据 模 型 。 在 开始 阶段 先 建立 数据 模型 ， 然 后 在 某 个 时 间 点 展示 给 终端 用 户 ， 这 样 做 可 能 
会 产生 无 法 正确 构建 DW2. 0 的 一 些 主 要 部 分 的 风险 。 

茶 些 情况 下 ， 在 完成 数据 模型 的 建立 和 终端 用 户 输入 的 记录 时 ， 需 要 有 一 些 非 常规 范 
的 操作 。 这 些 操作 包括 记录 商业 人 士 的 言论 ， 并 请 其 签字 保证 自己 说 了 什么 和 没 说 什么 。 
这 样 做 可 能 是 非常 必要 的 ， 尤 其 是 当 终 端 用 户 比 较 健忘 或 者 在 一 个 大 型 组 织 中 讲 给 一 大 
群 人 时 。 或 许 在 一 段 时间 后 就 会 发 现 对 终端 用 户 说 了 什么 或 没 说 什么 做 记录 稿 是 非常 有 
用 的 。 

终端 用 户 不 必 成 为 数据 建 模 技术 的 专家 。( 令 人 意外 的 是 ， 一 些 终端 用 户 如 此 喜欢 建 
模 过 程 并 且 通 过 不 停 地 实践 最 终 成 为 了 数据 建 模 的 专家 。) 相反 数据 建 模 过 程 都 是 由 外 部 
人 士 来 完成 ， 当 然 他 们 都 是 数据 建 模 专 家 。 

一 段 时 间 后 ， 商 业 模型 要 发 生 相 应 的 变化 。 商 业 人 士 参与 数据 模型 的 修改 ， 就 像 他 当 
初 参 与 数据 模型 的 建立 一 样 。 


8. 11 总 结 


数据 模型 形成 了 DW2. 0 环境 的 智能 线路 图 。DW2. 0 规模 庞大 ， 结 构 复 杂 ， 需 要 大 量 
的 开发 者 经 过 长 期 的 努力 才能 建立 起 来 。 正 是 数据 模型 的 出 现 ， 才 使 得 不 同 的 开发 工作 
能 够 结合 在 一 起 。 

数据 模型 的 形成 取决 于 企业 的 业务 需求 ， 它 建立 在 大 量 的 粒状 型 数据 基础 三 ， 而 非 概 
括 型 或 聚合 型 数据 。 

数据 模型 包括 三 个 层次 一 一 ERD 层 、 中 间 层 (或 dis 层 ) 以 及 底层 (或 物理 层 )。 

交互 区 的 形成 由 应 用 模型 决定 ， 整 合 区 的 形成 由 企业 数据 模型 决定 。 

一 些 数 据 模型 可 以 被 用 在 非 结构 化 数据 中 。 特 别 是 外 部 分 类 可 以 有 为 它们 建立 的 数据 
模型 。 男 外 ， 内 部 数据 模型 可 以 根据 主题 建立 ， 这 些 主题 是 根据 文本 产生 的 。 


第 9 章 监视 DW2. 0 环境 


DW2. 0 环境 是 复杂 和 动态 的 ， 它 的 各 部 分 之 间 存 在 着 复杂 的 联系 。 数 据 要 从 一 个 组 
件 流 向 另 一 个 组 件 ， 还 要 执行 事务 ， 并 且 还 进行 数据 转换 等 。 

在 很 多 方面 DW2. 0 环境 像 是 一 个 黑匣子 。 数 据 从 一 个 地 方 放 进去 ， 从 另 一 个 地 方 取 
出 来 ， 而 在 这 之 间 发 生 了 神秘 的 事情 。 不 幸 的 是 ， 如 果 DW2.0 环境 被 看 做 是 一 个 不 透明 
的 黑匣子 ， 我 敢 打赌 随 着 时 间 的 进行 ， 在 黑匣子 中 发 生 的 事件 会 变 得 不 顺利 起 来 : 数据 
会 收集 一 些 本 不 该 收集 的 数据 ， 事 务 响 应 变 得 缓慢 ， 数 据 会 放 错 位 置 ， 甚 至 还 有 更 坏 的 

因此 ，DW2.0 环境 不 应 该 像 是 一 个 黑匣子 ， 这 样 就 需要 周期 性 的 查看 以 便 确 保 
DW2. 0 环境 以 预先 期 待 的 方式 运行 。 


9.1 监视 DW2. 0 环境 


说 到 底 就 是 强烈 推荐 要 对 DW2. 0 环境 进行 定期 的 监视 。 至 少 ， 应 该 在 黑匣子 中 插入 
一 个 听诊 需 以 便 发 现 什 么 正在 运行 。 当 DW2.0 环境 或 它 的 某 一 部 件 需 要 调整 时 ， 这 些 调 
整 能 提前 而 非 被 动 地 去 做 。 


9.2 事务 监视 


在 DW2.0 环境 中 至 少 需 要 三 种 监视 。 第 
一 种 是 事务 监视 ， 它 运行 在 DW2.0 的 交互 
区 。 事 务 监视 用 来 确保 一 个 良好 一 致 的 响应 
时 间 。 和 
图 9-1 描述 了 事务 监视 。 aa 
9. 3 ”数据 质量 监视 图 9-1 事务 监视 是 DW2.0 环境 中 的 一 种 监视 


DW2.0 环境 中 需要 的 第 二 种 监视 是 对 数据 质量 
的 ETL 监视。 这 种 监视 专用 于 核查 通过 DW2.0 转 
换 组 件 的 数据 的 质量 。 如 果 低 质量 的 数据 被 送信 
DW2.0， 那 么 至 少 需要 通知 数据 分 析 师 ， 使 其 也 意 
识 到 这 一 点 。 

图 9-2 描述 了 数据 质量 监视 。 


9.4 数据 仓库 监视 


作为 DW2.0 环境 的 一 部 分 的 第 三 监视 是 数据 仓 we ee 
库 监视 。 它 监视 数据 仓库 中 的 数据 。 虽 然 数 据 仓库 监 图 9-2 ETL 时 刻 的 数据 质量 监视 也 
视 用 来 服务 于 多 个 不 同 的 目的 ， 但 它 主要 的 目的 是 测 是 DW2. 0 环境 的 一 种 监视 
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量 数据 的 使 用 频率 。 从 数据 的 使 用 频率 可 以 确定 任 一 数据 是 否 进入 休眠 期 。 对 休眠 数据 
的 管理 是 DW2. 0 环境 管理 的 一 个 最 为 重要 的 方面 。 图 9-3 描述 了 数据 仓库 监视 
接 下 来 会 深入 描述 DW2. 0 环境 的 三 种 监视 。 
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图 9-3 和 DW2.0 的 重要 组 成 部 分 





事务 监视 的 主要 目的 是 确保 良好 一 致 的 反应 时 间 。 不 幸 的 是 ， 系 统 运 行 的 许多 方面 都 
会 对 系统 性 能 产生 影响 。 
监视 系统 性 能 经 常 要 将 响应 时 间作 为 一 个 参考 ,在 2 ~3 秒 的 范围 内 的 反应 时 间 通 常 
认为 可 以 接受 。 也 可 能 在 一 天 当中 存在 一 些 时 间 段 ， 在 该 时 间 段 的 响应 时 间 有 所 延长 。 
但 是 只 要 这 些 时 间 段 比较 短 且 并 不 频繁 ， 并 且 响 应 时 间 增 加 得 不 是 太 长 ， 那 么 这 个 系统 
束 可 以 被 认为 是 以 一 种 令 人 满意 的 方式 运行 。 
通常 可 接受 的 响应 时 间 参 数 定义 在 服务 水 平 协议 中 。 
事务 监视 的 一 些 特性 和 特征 包括 : 
。 事务 队列 监视 : 事务 队列 是 事务 在 执行 之 前 存储 的 地 方 。 当 系统 繁忙 时 ， 事务 会 
锌 挂 起 在 事务 队列 中 等 待 执行 。 如 果 系 统 非常 繁忙 ， 那 么 这 种 等 待 就 会 成 为 性 能 
的 一 个 最 大 障碍 。 
。 应 用 监视 : 在 电脑 中 处 理事 务 的 应 用 需要 被 监视 。 当 一 个 事务 被 执行 时 ， 它 要 占 
用 系统 资源 。 这 些 系 统 资源 用 于 运行 正在 执行 的 事务 的 代码 ， 而 这 些 资源 所 被 使 
用 的 时 间 长 度 是 系统 吞吐 量 和 性 能 的 最 重要 的 度量 之 一 。 
。 事务 记录 监视 : 完成 一 个 交易 所 需 的 记录 数 也 会 影响 系统 性 能 。 一 个 单独 的 业务 
事务 经 常 耗费 许多 资源 。 但 是 最 能 表现 事务 处 理性 能 的 指标 是 事务 执行 所 需 的 记 
录 数 。 简 单 地 说 ， 需 要 较 少 记录 的 事务 执行 起 来 会 比 必须 执行 许多 记录 的 事务 快 
得 多 。 
当然 ， 还 存在 其 他 许多 性 能 测量 指标 ， 但 是 这 些 指 标 是 最 重要 的 。 
图 9-4 列举 了 一 些 可 以 使 用 事务 监视 来 达到 最 大 效益 的 一 些 组 件 。 


监视 计算 机 内 
部 的 执行 速度 





监视 所 接收 数 

据 的 记录 数 
图 9-4 事务 监视 的 基本 活动 

事务 监视 有 许多 输出 ， 接 下 来 将 讨论 其 中 一 些 最 突出 的 输出 。 
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9.6 高 峰 期 处 理 


来 目 事务 监视 的 一 个 重要 度量 标准 是 系统 在 高 峰 期 处 理 中 对 其 所 有 资源 的 使 用 程度 。 

在 每 个 事务 处 理 环境 中 ， 都 有 不 活跃 阶段 和 活跃 阶段 。 活 跃 阶段 就 是 所 谓 的 “高 峰 期 ”。 

只 要 有 能 力 满足 所 有 的 处 理 ， 系 统 就 会 平稳 运行 。 但 是 在 高 峰 期 ， 如 果 系 统 对 资源 的 
需求 超出 可 用 资源 ， 系 统 就 会 变 慢 ， 并 且 在 绝 大 多 数 情况 下 会 非常 明显 。 因 此 ， 每 一 个 
组 织 都 应 该 去 监视 需要 耗费 所 有 可 用 系统 资源 的 高 峰 期 处 理 时 的 资源 使 用 程度 。 如 果 在 
局 峰 期 的 资源 使 用 是 稳定 的 ， 那么 就 没 必 要 去 增加 系统 容量 。 如 果 或 当 高 峰 期 处 理 对 资 
源 需 求 持续 增长 时 ， 这 就 提示 了 需要 更 多 的 系统 资源 ， 或 是 需要 资源 的 重新 分 配 。 

图 9-5 摘 述 了 高 峰 期 资源 的 变化 情况 。 | 





一 一 最 大 容量 
图 9-5 ” 耻 待 解决 的 问题 一 一 什么 时 候 容易 使 用 达到 最 大 值 和 达到 那 一 点 时 将 有 什么 后 果 


另 一 个 典型 地 用 于 事务 监视 记录 的 重要 参数 是 系统 的 增长 率 。 可 以 随 着 时 间 被 记录 的 
系统 增长 的 典型 指标 是 系统 中 的 事务 数 和 数据 量 。 

事务 的 数目 是 系统 增长 和 容量 消耗 的 速率 的 一 个 良好 指标 。 通 过 推测 和 设计 一 个 系统 
处 理 的 事务 的 数量 ， 系 统 分 析 员 就 能 确定 什么 时 候 需 要 进行 硬件 升级 。 其 目的 是 预测 什 
么 时 候 需 要 进行 升级 和 确保 在 性 能 问题 开始 之 前 组 织 可 以 以 主动 的 方式 进行 响应 。 一 成 
不 变 地 以 被 动 的 方式 运行 意味 着 组 织 将 承受 周期 性 的 “瘫痪 "。 由 于 对 公司 运行 的 负面 影 
响 ， 瘫 痪 已 经 造成 了 大 量 痛苦 。 

图 9-6 描述 了 跟踪 随时 间 变 化 的 事务 量 和 数据 量 的 增长 的 典型 结果 。 


一 一 事务 的 增长 
一 数据 的 增长 
图 9-6 跟踪 数据 的 增长 和 事务 的 增长 


事务 处 理 的 执行 的 一 些 其 他 方面 也 可 以 被 监视 。 例 如 : 事务 量 的 增长 和 相关 响应 时 间 
降低 的 蚕 交 就 显示 和 预测 了 提高 事务 处 理 能 力 已 经 对 组 织 非常 关键 了 。 图 9-7 描述 了 这 种 
比较 性 的 性 能 测定 。 


9.7 ETL 数据 质量 监视 


当 数据 从 DW2. 0 的 一 个 区 流入 另 一 个 区 ， 或 数据 最 初 进入 系统 时 ，ETL 数据 质量 监 
视 就 会 检查 数据 。ETL 数据 质量 监视 的 目的 是 为 了 评价 数据 被 转化 时 数据 的 质量 。 
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mo 著 务 的 增长 
一 一 一 响应 时 间 的 反方 向 变化 


图 9-7 跟 踊 事务 的 增长 及 与 此 匹配 的 响应 时 间 的 反方 向 变化 


ETL 数据 监视 查看 数据 的 很 多 方面 ， 它 将 检查 如 下 内 容 : 
。 数 域 : 假设 性 别 被 定义 为 : “M/F”， 如 果 性 别 的 数据 以 “MALE” 的 格式 录入 ， 
那么 ETL 数据 质量 监视 会 将 其 记录 为 错误 。 
不 匹配 的 外 键 : 例如 ， 如 果 数 据 中 存在 对 “John Jones” 的 引用 ， 但 顾客 数据 库 中 
没有 John Jones， 那 么 便 被 认为 是 外 键 缺损 或 未 匹配 。 
边界 范围 : 顾客 的 正常 年 龄 在 15 岁 到 80 岁 之 间 。 如 果 进 入 系统 的 一 个 顾客 的 年 
龄 属性 是 234 岁 ， 这 显然 是 一 个 年 龄 范围 数据 质量 问题 ， 需 要 被 检测 到 并 报告 。 
空 值 : 指定 的 每 一 个 数据 键 都 应 该 出 现 。 如 果 一 个 输入 数据 仓库 中 的 一 个 记录 没 
有 键 ， 那 么 它 必 须 被 检测 到 并 报告 。 
锌 损坏 特征 : 一 个 被 拼 成 “Mar [ ++* ]” 的 名 字 也 可 以 进入 ETL。 除 非 一 个 人 有 
一 个 不 寻 第 的 名 字 ， 例 如 以 前 一 个 艺术 家 叫做 王子 ， 和 否则 这 很 有 可 能 是 数据 中 的 
一 个 质量 误差 问题 。 

还 有 其 他 一 些 需 要 ETL 数据 质量 监视 来 检测 和 报告 数据 质量 问题 情况 的 例子 。 

最 为 有 趣 的 一 个 关于 数据 质量 的 问题 是 : 一 旦 检测 到 一 个 错误 情况 ， 该 做 哪些 处 理 。 
一 种 选择 是 丢弃 这 个 数据 ,但 是 通常 情况 下 这 是 一 个 糟糕 的 选择 ， 因 为 

。 被 丢弃 的 这 条 记录 的 其 他 部 分 可 能 非常 好 。 

。 需要 一 些 更 正方 法 。 人 工 更 正 应 该 是 最 后 的 选择 ， 因 为 人 工 更 正大 量 不 正确 的 数 

据 需要 非常 多 的 时 间 ， 会 严重 拖延 项 目的 进度 。 

万 一 个 选择 是 生成 缺 省 数据 。 虽 然 也 非常 有 效 ， 但 被 认定 为 不 正确 的 数据 在 系统 中 再 
也 不 存在 了 。 还 有 男 外 一 个 选择 就 是 让 坏 的 数据 进入 系统 ， 并 将 其 标注 为 错误 的 。 标 注 
错误 数据 就 是 在 警告 终端 用 户 这 个 数据 存在 问题 。 

图 9-8 描述 了 ETL 数据 质量 监视 的 位 置 和 角色 。 


9.8 数据 仓库 监视 工具 


数据 仓库 监视 是 监视 数据 仓库 中 什么 数据 
正在 被 使 用 和 什么 数据 没有 被 使 用 的 一 个 软件 
工具 。 如 有 果 一 组 数据 相当 长 的 时 间 没 有 被 使 用 ， 
那么 它 就 被 认定 是 “休眠 的 ”"。 好 的 数据 仓库 整合 区 
监视 应 设计 为 能 够 检测 和 报告 休眠 数据 的 。 图 9-8 数据 质量 监视 

数据 仓库 中 数据 监视 的 一 般 方式 是 通过 截 
取 提 交 给 数据 仓库 系统 的 SQL 代码 。 通 过 收集 输入 系统 的 SQL， 分 析 人 员 就 能 确定 在 数 
据 仓 库 中 什么 数据 正在 被 访问 ， 什 么 数据 没有 被 访问 。 通 常 ，SQL 是 由 “ 嗅 探 ”通信 线 
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路 来 截取 的 。 安 排 嗅 探 器 的 一 个 方法 是 把 它 安置 在 数据 仓库 计算 机 外 部 。 图 9-9 描述 了 一 
个 放置 在 用 于 管理 数据 仓库 的 计算 机 外 部 的 嗅 探 器 。 

虽 探 严 可 以 安置 在 另外 一 个 地 方 ， 
即 用 于 管理 数据 仓库 的 计算 机 的 内 部 。 
图 9-10 描述 了 安置 在 数据 仓库 计算 机 内 
部 的 嗅 探 融 的 位 置 。 

通 第 ， 从 管理 数据 仓库 的 计算 机 的 
外 部 来 嗅 探 SQL 代码 更 为 有 效 。 这 是 因 
为 ， 当 嗅 探 被 允许 成 为 数据 仓库 DBMS 
的 一 部 分 或 直接 作用 于 数据 仓库 DBMS 
时 ， 它 的 开销 会 是 一 个 很 大 的 因素 。 


9.9 休眠 数据 


数据 仓库 中 需要 一 个 静态 数据 监视 
全 有 许多 原因 。 主 要 的 原因 是 当 数 据 进 
入 休眠 时 ， 它 需要 被 移 人 备用 存储 器 中 。 
备用 存储 器 比 起 高 性 能 的 硬盘 存储 来 说 
要 便宜 得 多 。 除 此 之 外 ， 休 眠 数据 会 阻 
窗 高 性 能 硬盘 存储 的 “动脉 ”。 

把 静态 数据 移入 备用 存储 模式 有 两 个 好 的 理由 : 

。 省 钱 一 一 潜在 地 省 了 大 笔 的 钱 。 

。 提高 性 能 。 

休眠 数据 是 悄悄 进入 系统 的 。 图 9-11 描述 了 休眠 数据 在 数据 仓库 中 是 如 何 增长 的 。 

新 建立 和 实施 的 数据 仓库 一 般 不 会 包含 大 量 的 数据 ， 因 此 也 不 会 包含 很 多 休眠 数据 。 
随 看 数据 仓库 中 数据 量 的 增长 ， 休 眠 数据 所 占 的 百分比 也 在 增 大 。 当 数据 仓库 中 存在 非 
党 多 的 数据 时 ， 相 应 地 也 会 有 非常 多 的 数据 进入 休 眼 状态 。 









数据 仓库 监视 


a 


图 9-9 放置 在 网 络 内 计算 机 外 部 的 数据 仓库 监视 






数据 仓库 监视 


图 9-10 ”放置 于 计算 机 内 部 的 数据 仓库 监视 





图 9-11 随 着 数据 量 增 大 ， 休眠 数据 所 占 比 例 也 在 增加 


一 种 选择 是 简单 地 把 休眠 数据 留 在 数据 仓库 中 。 但 是 这 样 做 成 本 较 高 ， 而 且 会 大 幅 地 
降低 系统 速度 。 另 一 种 选择 是 把 休眠 数据 移入 线性 区 或 归档 区 。 图 9-12 描述 了 休眠 数据 
周期 性 地 移入 近 线 区 或 归档 区 。 

数据 仓库 监视 用 于 报告 什么 时 候 数据 进入 休眠 状态 。 


9. 10 企业 用 户 的 观点 
数据 监视 是 一 项 技术 实践 ， 因 此 企业 用 户 不 直接 参与 监视 。 然 而 ， 这 些 企业 用 户 肯定 
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图 9-12 一 个 阴 待 解决 的 问题 一 一 什么 样 的 数据 需要 放置 在 近 线 区 中 


要 看 见 监视 结果 。 

打 个 比方 ， 当 企业 用 户 看 到 油 量 警 示 灯 亮 起 来 后 ， 他 / 她 就 会 开 进 加 油 站 加 油 ， 半 个 
小 时 后 再 上 路 。 这 时 候 在 路 上 行驶 ， 油 量 警 示 灯 就 不 会 再 闪烁 了 。 

监视 DW2.0 环境 也 同样 如 此 。 在 DW2. 0 环境 中 企业 用 户 注 意 到 了 性 能 的 下 降 ， 或 者 
冬 端 用 户 注意 到 在 一 个 查询 中 会 返回 大 量 数据 。 此 时 ， 商 业 人 士 会 同 数据 构架 师 讨 论 这 
一 症状 。 数 据 构架 师 就 会 利用 监视 ， 并 解决 问题 。 

值得 注意 的 是 使 用 监视 和 解决 问题 可 不 是 一 件 轻 而 易 举 且 短 时 间 内 能 完成 的 事情 。 即 
使 在 最 好 的 情况 下 ， 在 注意 到 问题 的 症状 和 解决 问题 之 间 也 存在 一 段 相当 长 的 时 间 。 


9. 11 总 结 


在 DW2.0 中 所 需 的 三 种 监视 为 : 

。 事务 监视 

e。 数据 质量 监视 

。 数据 仓库 监视 

事务 监视 放置 在 交互 区 ， 并 着 重 于 事务 响应 时 间 和 性 能 计划 。 事 务 监视 尤其 关注 在 高 
峰 处 理 期 发 生 的 数据 仓库 活动 。 事 务 监视 需要 检测 工作 量 、 队 列 长 度 和 资源 利用 情况 。 

数据 质量 监视 着 重 于 监视 当 数据 从 DW2. 0 数据 仓库 环境 的 一 部 分 进入 另 一 部 分 时 的 
数 域 和 数据 范围 。 

数据 仓库 监视 主要 关注 DW2. 0 数据 仓库 的 整合 区 并 解决 休眠 数据 。 它 观察 数据 并 确 
定 哪 些 数据 被 使 用 ， 哪 些 没 有 被 使 用 。 

最 好 的 数据 仓库 监视 是 那些 在 数据 仓库 DBMS 外 面 运行 的 数据 仓库 监视 。 对 于 监视 在 
数据 仓库 内 部 进行 的 活动 ，SQL 嗅 探 的 使 用 是 最 不 冒失 且 最 不 耗 时 的 技术 。 
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当前 ， 任 何 一 个 信息 系统 的 建立 都 不 能 忽视 安全 问题 。 在 这 一 点 上 ， 新 一 代 DW2.0 
数据 仓库 跟 其 他 类 型 的 系统 是 一 样 的 。 鉴 于 数据 仓库 应 用 的 广泛 性 (包括 交易 处 理 系 统 
和 归档 系统 等 ) ， 在 DW2.0 环境 中 采用 不 同形 式 的 安全 措施 和 从 不 同 角度 解决 安全 问题 
就 不 足 为 奇 了 。 


10. 1 保护 访问 数据 


有 许多 方法 来 解决 数据 和 系统 的 安全 问题 。 
图 10-1 提出 了 一 个 保护 数据 的 最 简单 方法 。 

图 10-1 所 描述 的 屏障 在 一 定 程 度 上 可 以 防止 
未 经 同意 或 未 经 授权 的 人 们 访问 数据 。 这 些 屏障 
有 多 种 形式 ， 例 如 密码 、 特 殊 交 易 和 软件 的 干预 。 

屏障 是 有 益 于 整个 DW2. 0 环境 的 : 从 交互 区 图 10-1 一 种 保护 数据 的 方式 是 必须 非 
到 整合 区 、 近 线 区 和 归档 区 。 党 小 心 谁 曾经 访问 过 它 


10.2 加 密 技术 


还 有 其 他 保护 数据 的 方法 。 图 10-2 描述 了 另外 一 种 方法 。 

当 数 据 被 加 密 时 ， 它 以 一 种 不 同 于 其 初始 格式 的 格式 
重 写 。 虽 然 任 何人 都 可 以 访问 加 密 的 数据 ， 但 只 有 那些 知 
道 如 何 解 密 数 据 的 人 才 可 以 理解 它 真 正 的 含义 。 通 过 加 密 Na. 
” 你 护 数 据 并 不 是 要 保护 它 不 被 访问 ， 而 是 通过 将 解密 机 制 。 图 10-2 另 一 种 保护 数据 的 
限制 为 只 有 授权 用 户 才能 得 到 来 保护 数据 。 在 DW2. 0 环境 方式 是 加 密 数据 
中 ， 加 密 技 术 下 在 某 些 情况 下 是 有 用 的 ， 但 由 于 它 存在 一 
些 弊端 ， 因 此 使 用 它 必 须 非 常 小 心 。 

数据 的 访问 保护 和 数据 加 密 ， 这 两 项 安全 技术 以 不 同 的 形式 、 不 同 的 方面 应 用 于 整个 
DW2.0 环境 。 


10.3 缺点 


这 两 种 类 型 的 安全 技术 都 有 缺点 。 保护 数据 不 被 非 授权 地 访问 需要 一 个 自 有 的 技术 基 
础 设施 。 因 此 ， 需 要 一 定 的 管理 成 本 来 维持 保护 性 基础 设施 的 更 新 。 

数据 加 密 也 有 明确 的 相关 成 本 。 当 数据 被 加 密 时 ， 就 会 关闭 数据 仓库 系统 的 一 些 重要 
部 分 。 加 密 的 数据 不 能 被 有 效 索 引 ; 访问 数据 时 ， 人 们 在 执行 查询 前 必须 先 对 查询 中 的 
参数 进行 加 密 ; 而 且 ， 它 不 能 用 于 逻辑 或 数值 的 计算 或 比较 。 

简 而 言 之 ， 数 据 的 加 密 技术 有 许多 缺点 。 图 10-3 描述 了 一 个 这 样 的 缺点 。 

由 于 这 两 种 类 型 的 安全 技术 都 存在 缺点 ， 因 此 没有 一 种 类 型 能 够 单独 满足 DW2. 0 数 
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据 仓 库 的 需要 。 相 反 ， 在 DW2. 0 环境 中 存在 一 类 混合 的 安全 技术 。 
10.4 防火 墙 


也 许 最 著名 的 安全 类 型 就 是 防火 墙 了 。 防 火 墙 用 于 连接 外 部 世界 与 公司 的 内 部 系统 的 
网 络 中 。 图 10-4 描绘 了 一 个 正在 管理 控制 从 Internet 进入 内 部 网 络 的 事务 处 理 的 防火 墙 ， 


站 
图 10-3 ” 当 数 据 被 加 密 时 ， 


访问 数据 的 人 必须 图 10-4 ”对 于 在 线 用 户 的 安全 ,防火 墙 
意识 到 在 进行 检索 之 间 对 数据 的 加 密 是 一 种 基本 形式 的 保护 方式 





值得 指出 的 是 ， 防 火 墙 保护 仅仅 应 用 于 对 交互 区 的 访问 ， 因 为 交互 区 是 DW2.0 架构 
中 活动 的 事务 处 理 进 行 的 地 方 。 


10.5 使 数据 脱 机 
图 10-5 表明 只 有 交互 区 与 Internet 环境 有 一 个 接口 。 





图 10-5 保护 的 一 种 基本 形式 是 使 DW2.0 中 的 非 交互 式 数据 脱 机 


该 图 表明 DW2. 0 数据 仓库 中 的 整合 区 、 近 线 区 和 归档 区 必须 不 能 与 因特网 有 直接 的 
接口 。 完 全 将 这 些 数据 仓库 的 关键 区 域 与 因特网 隔离 ， 意味 着 即使 是 最 好 的 黑客 也 不 能 
得 到 数据 库 中 的 数据 ， 只 有 交互 区 中 的 数据 处 于 风险 中 。 这 是 一 个 非常 简单 但 非常 有 效 
的 安全 措施 。 

允许 进入 整合 区 的 交互 区 内 数据 必须 首先 经 过 DW2. 0 的 ETL 接口 的 处 理 才能 进入 整 
合 区 。 在 整合 区 、 近 线 区 和 归档 区 中 的 数据 仍然 能 够 被 访问 ， 然而， 访问 它们 需要 脱 机 
处 理 或 被 授权 访问 机 构 的 内 部 网 络 。 

图 10-6 表明 DW2. 0 的 数据 仍然 可 以 脱 机 访问 。 

DW2.0 环境 中 的 数据 实际 上 可 以 被 加 密 。 然 而 ， 由 于 对 大 量 的 数据 进行 加 密 既 不 实 
际 也 不 十 分 有 效 ， 所 以 通常 只 对 一 些 选 定 的 部 分 数据 进行 加 密 。 
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10.6 限制 性 加 密 


图 10-7 描述 的 加 密 只 涉及 记录 中 数据 的 几 个 字段 。 尽 管 对 加 密 数 据 建立 索引 在 技术 
上 是 可 行 的 ， 但 数据 加 密 后 再 想 获取 它 并 不 容易 。 通 过 仅 对 记录 中 数据 的 一 小 部 分 进行 
加 密 ， 可 最 小 化 加 密 所 带 来 的 晤 并 。 

为 了 恢复 被 加 密 数 据 的 实际 值 ， 就 
需要 一 些 方法 。 图 10-8 表明 ， 加 密 数据 
实际 所 代表 的 值 要 么 通过 检查 索引 来 确 
定 ， 要 么 通过 一 种 算法 来 确定 。 

加 蜜 技术 最 好 用 于 DW2. 0 环境 的 整 
合 区 。 因 为 加 密 数 据 所 固有 的 整 端 ， 如 
果 要 将 其 应 用 在 所 有 地 方 ， 那 么 就 应 该 
有 节制 地 使 用 。 当 加 密 技 术 被 用 于 整合 
区 时 ， 应 特别 注意 这 是 否 会 给 性 能 带 来 
消极 甚至 严重 的 影响 。 而 加 密 技 术 是 否 
应 该 用 于 归档 区 仍然 是 值得 商 权 的。 图 10-6 ”通过 一 个 单独 的 网 络 访问 脱 机 数据 
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图 10-7 一 种 方法 是 只 加 密 部 分 数据 记录 图 10-8 加 密 数据 的 方式 访问 
10.7 直接 转 储 


跟 一 个 有 效 的 屏障 的 作用 一 样 ， 对 非 授权 的 数据 访问 ， 可 以 通过 简单 地 进行 一 个 数据 
的 系统 转 储 ， 然 后 手动 读 取 数 据 来 绕 过 安全 保护 问题 。 图 10-9 描述 了 一 个 DW2. 0 数据 库 
的 系统 转 储 。 

当 进 行 系统 数据 转 储 之 后 ， 除 了 加 密 以 外 ， 数 据 不 受 其 他 任何 保护 ， 此 时 可 以 手工 读 
取 数 据 ， 如 图 10-10 所 示 。 

大 多 数 人 并 不 会 手工 读 取 被 转 储 的 数据 ， 无 论 是 为 了 娱乐 还 是 为 了 了 工作。 如果 要 想 完 
整地 读 取 一 个 被 转 储 的 数据 集 ， 还 要 遵守 一 套 星 涩 难 解 的 规则 。 人 然而， 被 转 储 的 数据 库 
中 ， 文 本 数据 可 以 被 很 容易 地 读 取 ， 不 需要 专门 的 技术 或 工具 。 因 此 ， 如 果 仅 是 要 从 转 
储 数 据 中 挑选 出 文本 ， 那 么 一 个 非 技 术 人 员 也 可 以 读 取 转 储 数据 并 做 到 这 一 点 。 

因为 读 取 转 储 数据 绕 过 所 有 其 他 形式 的 保护 ， 因 此 最 好 有 某 种 形式 的 加 密 保 护 。 这 种 
保护 尤其 适用 于 DW2. 0 环境 中 的 整合 区 。 
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图 10-9 绕 过 所 有 安全 措施 的 一 个 方法 图 10-10 系统 转 储 之 后 ， 只 能 手工 读 取 数据 
是 进行 一 个 系统 转 储 


10.8 数据 仓库 监视 


数据 仓库 监视 是 DW2. 0 环境 的 一 个 标准 建议 。 在 第 9 章 中 描述 了 推荐 监视 的 原因 。 
但 还 有 男 一 个 更 好 的 理由 来 使 用 数据 仓库 监视 ， 即 确定 谁 正在 寻找 什么 样 的 数据 。 确 定 
谁 正在 提交 查询 ， 查 询 什 么 数据 库 ， 这 些 是 数据 仓库 监视 可 以 做 的 最 有 用 的 事情 。 数 据 
仓库 监视 和 事务 监视 这 两 者 都 产生 事务 日 志 。 事 务 日 志 就 是 一 个 能 被 监视 监测 到 的 活动 
的 记录 。 

图 10-11 描述 了 一 个 被 监视 的 DW2. 0 环境 ， 其 结果 是 建立 一 个 事务 日 志 。 当 监视 生 
成 日 志 后 ， 读 取 日 志 是 一 件 相当 简单 的 事情 。 分 析 师 通过 读 取 数 据 仓 库 监视 的 事务 日 志 ， 
可 以 知道 谁 正在 查询 什么 数据 。 





图 10-11 在 访问 日 志 中 可 以 看 出 谁 正在 寻找 什么 样 的 数据 


这 种 形式 的 安全 是 消极 的 ， 因 为 它 并 不 能 防止 对 数据 仓库 数据 库 的 未 经 授权 的 访问 。 
但 是 它 仍然 是 一 种 安全 技术 ， 如 果 有 未 经 授权 的 访问 ， 它 们 都 会 出 现在 日 志 记 录 中 。 


10.9 检测 攻击 


对 来 自 DW2.0 环境 以 外 的 攻击 ， 在 它 成 为 一 个 严重 问题 之 前 ， 或 最 好 在 它 发 生 之 前 ， 
进行 检测 是 另 一 种 很 好 的 保护 数据 仓库 的 方法 。 迅 速 确定 无 效 或 未 经 授权 的 访问 可 以 使 
机 构 能 检测 到 并 停止 一 个 攻击 。 例 如 ， 有 了 时候 一 个 系统 在 不 知道 密码 的 情况 下 想 要 进入 
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另 一 个 系统 。 解 决 这 个 问题 的 一 个 有 效 办 法 就 是 在 系统 内 设置 许多 不 同 的 密码 以 防止 未 
经 授权 的 访问 。 一 旦 攻击 产生 了 能 够 进入 系统 的 密码 ， 攻 击 路 线 上 还 存储 了 其 他 好 的 密 
码 供 今后 使 用 。 
这 种 类 型 的 攻击 可 以 通过 记录 发 送 给 系统 的 不 被 接受 的 密码 检测 到 。 如 果 突然 出 现 大 、 
量 无 效 的 密码 ， 系 统 就 会 检测 到 一 个 攻击 。 然 后 系统 可 以 选择 性 地 关闭 ， 直 至 攻击 结束 。 
随 着 事务 通过 Intemet 的 流入 ， 这 种 攻击 最 有 可 能 发 生 在 DW2. 0 的 交互 区 。 
图 10-12 描述 了 一 个 大 量 密码 涌 人 的 攻击 。 
DW2. 0 数据 仓库 的 非 结构 化 部 分 的 安全 保护 wa 
模仿 了 结构 化 方面 的 安全 保护 ， 但 也 夹杂 了 一 些 二 全 站 





增加 的 部 分 。 如 果 传 入 的 文件 是 受 保护 的 并 且 系 本 

统 能 检测 到 这 种 保护 ， 那 么 这 些 文件 根本 不 会 被 A . 

带 入 DW2.0 环境 中 。 这 就 确保 了 对 外 部 保护 机 制 

的 承认 和 接受 ， 并 确保 了 拥有 其 他 保护 的 数据 绝 图 10-12 如 果 太 多 不 成 功 的 访问 迅速 、 

不 会 进入 DW2.0 的 非 结 构 化 部 分 。 连续 地 要 求 通 过 防火 墙 ， 系 
图 10-13 表明 在 进入 DW2.0 时 对 外 部 的 安全 Pad 

的 承认 和 接受 人 





图 10-13 如果 文 件 是 受到 保护 的 ， 它 们 便 不 能 进入 非 结 构 化 的 数据 库 


10. 10” 近 线 区 数据 的 安全 


近 线 区 是 对 保护 要 求 最 少 的 环境 。 近 线 区 仅仅 是 整合 区 的 扩展 ， 因 此 任何 适用 于 整合 
区 的 安全 措施 同样 也 适用 于 近 线 区 。 男 外 ， 在 正常 的 操作 过 程 中 ， 近 线 区 不 能 访问 它 日 
身 ; 因此 近 线 区 需要 最 少 的 保护 。 

最 后 ， 归 档 数 据 也 存在 保护 。 归 档 数 据 采 用 标准 的 方式 进行 保护 一 一 通过 授权 访问 以 
及 加 密 技术 。 但 是 ， 由 于 归档 数据 往往 是 放 在 磁盘 存储 以 外 的 其 他 存储 介质 中 ， 因 此 有 
更 多 的 可 能 性 去 保护 它 。 

许多 归档 环境 都 包括 登入 和 登 出 过 程 。 如 果 一 个 数据 单元 受到 保护 ， 不 允许 对 数据 进 
行 登 出 是 一 个 很 好 的 方法 ， 这 就 对 数据 增加 了 一 个 额外 的 保护 层 。 

图 10-14 表明 ， 归 档 数 据 提 供 了 更 多 的 安全 的 机 会 。 


10. 11 企业 用 户 的 观点 


从 企业 用 户 的 角度 出 发 ， 安 全 是 绝对 必要 的 。 企 业 用 户 认为 不 管 怎样 ， 反 正 数 据 理 所 
应 当 应 该 是 安全 的 。 大 多 数 终端 用 户 并 不 是 安全 方面 的 专家 。 他 们 只 是 希望 安全 是 存在 
的 ,但 是 不 希望 看 到 安全 的 任何 具体 形式 。 

这 就 是 一 个 问题 ， 某 些 类 型 的 安全 是 非常 繁琐 并 且 影 响 到 系统 的 日 常 使 用 。 这 就 像 要 
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非 结构 化 归档 数据 





结构 化 归档 数据 
图 10-14 ”归档 环境 通常 可 以 有 自己 单独 的 安全 等 级 


进入 一 个 国家 时 等 待 海关 安检 ， 人 们 只 期 望 稍微 等 一 会 儿 。 虽 然 有 时 候 人 们 会 多 等 一 会 
儿 ， 但 不 希望 每 次 入 境 时 都 要 等 待 数 小 时 。 

对 于 DW2.0 的 安全 间 题 人 们 持 有 相同 的 态度 。 人 们 预算 出 一 定 的 总 开销 ， 但 是 这 种 
开销 用 最 好 不 要 一 直 超 出 预算 。 


10. 12 总 结 


对 于 整个 DW2.0 环境 来 说 安全 是 必需 的 ，DW2. 0 环境 的 多 样 性 和 复杂 性 要 求 在 整个 
环境 中 存在 多 种 不 同形 式 的 安全 。 

有 两 种 基本 类 型 的 安全 : (1) 安全 屏障 ， 对 于 未 经 授权 的 访问 ， 在 其 前 面 设置 一 定 
的 障碍 ; (2) 数据 加 密 安全 ， 任 何人 都 能 访问 数据 ,但 只 有 经 过 授权 的 人 才能 理解 数据 
的 真正 含义 。 

还 有 一 种 消极 的 安全 ， 这 种 方式 并 不 试图 阻止 人 们 访问 数据 ， 但 使 用 一 个 日 志 记 录 保 
仓 所 有 被 访问 的 数据 。 在 检测 一 个 未 经 授权 的 攻击 发 生 后 ， 这 种 消极 的 监视 会 报告 都 有 
什么 数据 被 访问 ， 被 谁 访问 。 

原始 数据 转 储 是 违背 安全 措施 的 一 种 形式 。 当 原始 数据 被 下 载 时 ， 它 绕 开 所 有 的 保护 
措施 ， 并 在 一 个 原始 的 状态 下 检查 数据 。 

帮 外 一 种 用 来 保护 数据 的 技术 是 尽 可 能 多 地 使 数据 脱 机 ， 这 可 以 防止 网 上 黑客 对 数据 
的 访问 。 

太一 种 形式 的 安全 是 攻击 监测 ， 它 查看 是 否 存在 对 数据 的 数目 异常 的 未 经 授权 的 
访问 。 


第 11 章 时 间 相 关 数 据 


DW2.0 环境 的 一 个 基本 要 素 是 数据 与 时 间 的 关系 。 不 像 其 他 环境 中 数据 与 时 间 是 无 
关 的 那样 ， 在 DW2. 0 环境 中 ， 所 有 的 数据 都 以 这 样 或 那样 的 方式 与 时 间 相 关 。 


11. 1 DW2. 0 中 的 所 有 数据 一 一 与 时 间 相关 


图 11-1 显示 了 DW2. 0 中 的 所 有 数据 均 与 时 间 相关 。 

这 就 意味 着 当 访 问 任 何 给 定 的 数据 单元 时 ， 需 
要 知道 数据 在 什么 时 间 是 精确 的 。 一 些 数据 表示 从 
1995 开始 的 信息 。 男 外 一 些 数据 表示 从 1 月 开始 的 
信息 。 还 有 一 些 其 他 的 数据 表示 从 今天 早上 开始 的 
信息 。 

在 DW2.0 中 , :不论 是 明确 提出 还 是 暗含， 所 有 : 
数据 均 有 一 个 描述 了 它 的 精确 性 和 相关 性 的 相关 时 图 11-1 DW2.0 中 的 所 有 数据 以 某 种 
间 。 通 常 ， 用 于 这 种 描述 的 记录 级 别 上 的 一 种 数据 方式 与 时 间 相 关联 
结构 如 图 11-2 所 示 。 

在 图 11-2 中 有 两 种 记录 类 型 。 一 种 记录 类 型 用 
来 建立 数据 在 某 一 时 刻 的 快照 。 这 种 记录 类 型 一 一 
如 左 所 示 的 主键 结构 中 包含 日 期 和 时 间 信 息 。 
男 外 一 种 类 型 如 右 图 所 示 。 这 种 类 型 含有 一 个 开始 
日 期 和 一 个 结束 日 期 ， 这 表示 其 代表 了 一 个 时 间 块 
而 不 是 时 间 点 。 

注意 在 两 种 情况 下 ， 时 间 元 素 都 是 主键 结构 的 ， 

一 部 分 。 主 键 是 复合 键 ， 而 时 间 部 分 是 复合 键 中 的 。 “二 税 鸭 一 部 分 
一 个 组 成 部 分 。 


11.2 交互 区 中 的 时 间 相 关 性 


在 交互 区 中 ， 数 据 的 时 间 相关 性 有 些 不 同 。 在 该 区 中 ， 数 据 值 被 假定 为 当前 访问 时 间 
的 值 。 例 如 ， 假 设 你 去 银行 询问 你 某 个 账户 的 余额 ， 那 么 它 返 回 的 时 间 值 被 认为 在 访问 
时 刻 是 准确 的 。 如 果 银 行 工作 人 员 告 诉 你 账户 中 还 有 3971 交互 区 
美元 时 ， 那 么 这 个 值 是 累计 到 当前 访问 时 间 的 值 ， 考 虑 到 
了 账户 中 所 有 的 收入 和 支出 记录 。 

这 样 ， 因 为 交互 区 数据 用 来 表示 访问 时 刻 的 精确 值 ， 
所 以 交互 区 数据 中 不 包含 日 期 信息 。 图 11-3 显示 了 正在 发 
生 的 银行 交易 ， 其 使 用 了 交互 的 、 实 时 的 数据 。 图 11-3 ”交互 区 中 ， 数 据 在 

但 是 在 DW2.0 的 其 他 所 有 区 中 一 一 整合 区 、 近 线 区 、 使 用 时 刻 是 正确 的 
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归档 区 ， 数 据 都 有 一 个 与 之 明确 关联 的 时 间 。 
11. 3 DW2.0 其 他 部 分 中 的 数据 相关 


图 11-4 显示 了 在 整合 区 、 近 线 区 和 归档 区 的 每 一 个 记录 均 表 示 二 个 时 间 点 或 一 个 时 
间 段 。 

这 种 数据 与 时 间 相 关 的 概念 产生 了 一 些 完全 不 同 的 处 ga 
理 方式 。 在 交互 环境 中 ， 完 成 数据 更 新 。 在 这 种 情况 下 ， 和 


数据 的 更 新 是 指数 据 值 的 实际 改变 。 图 11-5 显示 了 在 交 
互 环境 中 银行 事务 的 完成 以 及 数据 值 的 改变 。 





在 上 午 10 点 31 分 ,账户 中 有 2000 美元 。 随 后 产生 fx 
一 笔 存 入 500 美元 的 交易 。 该 交易 在 数据 库 中 的 数据 上 执 时 间 段 
行 ， 然 后 在 10 点 32 分 时 银行 账户 余额 更 新 为 2500 美元 。 图 1 4 在 Dw2 0 的 基 
数据 值 因 为 事务 的 产生 而 发 生 了 改变 。 区 域 中 ,每 条 记录 描 
述 了 一 个 时 间 段 


11.4 整合 区 中 的 事务 处 理 


让 我 们 考虑 整合 区 中 的 一 个 相似 的 情况 。 在 上 午 10 点 31 分 时 ， 整 合 区 数据 库 中 有 一 
个 2000 美元 的 记录 。 然 后 执行 一 个 交易 ， 在 上 午 10 点 32 分 一 个 新 的 记录 被 放 到 数据 库 
中 。 这 样 在 数据 库 中 有 两 个 不 同 的 记录 ， 分 别 显示 了 不 同时 间 下 的 不 同 数据 。 

图 11-6 显示 了 整合 区 中 事务 的 执行 。 








上 午 10 点 32 分 上 午 10 点 32 分 





上 午 10 点 31 分 上 午 10 点 31 分 
图 11-5 在 交互 区 ， 因 为 交互 行为 数据 值 被 改变 图 11-6 在 整合 区 ， 所 有 交互 历史 记录 被 保留 


图 11-5 和 图 11-6 中 的 不 同 数据 清晰 地 表明 : 因为 数据 和 时 间 的 不 同 关联 方式 ， 不 同 
环境 下 数据 库 中 的 数据 内 容 完全 不 同 。 

这 些 不 同 的 数据 类 型 有 相应 的 术语 。 图 11-7 显示 了 这 些 术语 。 

当 仅仅 有 一 个 时 间 点 时 ， 数 据 称 为 离散 数据 。 
当 含有 起 始 时 间 和 终止 时 间 时 ， 数据 称 为 连续 时 间 
段 数 据 。 这 两 种 类 型 的 数据 有 非常 不 同 的 特点 。 


11.5 离散 数据 


离散 数据 对 于 大 量 的 快速 变化 的 变量 很 适用 ， 
例如 道琼斯 工业 指数 。 事 实 上 ， 道 琼斯 工业 指数 
是 在 每 天 结束 时 计算 ， 而 不 在 其 统计 的 股票 被 买 “图 11.7 两 种 时 间 变 化 数据 的 一 般 形式 


连续 时 间 段 








122 务 :171 并 


入 或 卖 出 后 立即 计算 。 被 一 系列 离散 的 时 间 快 照 获取 的 变量 包括 了 在 同一 时 刻 被 度量 
的 变量 ,除了 这 一 点 相同 外 ， 并 没有 其 他 什么 能 将 数据 属性 与 离散 记录 从 语义 上 联系 
起 来 。 . : 

图 11-8 显示 了 离散 结构 的 数据 的 一 些 特征 。 


11.6 连续 时 间 段 数据 


连续 时 间 段 数据 有 一 个 不 同 的 特征 集 。 典 型 地 ， i 
记录 中 的 连续 时 间 段 数据 仅 有 很 少 的 变量 ， 并 且 这 - 值 经 常 改 变 的 属性 
-语义 不 同 的 变量 


此 变量 并 不 经 常 改变 。 造 成 这 种 特性 的 原因 是 每 次 
有 一 个 值 变化 时 ， 就 会 重新 写 人 一 个 新 的 连续 时 间 
段 记录 。 例 如 ， 假 设 一 个 连续 时 间 眉 记录 包含 以 下 。。 ; 
的 属性 : 名称、 地址、 性别 、 电 话 号 码 。 每 次 这 些 ”高 区 时间 变 化 数据 的 一 些 特征 
属性 中 的 一 个 值 发 生变 化 时 ， 就 必须 写 人 一 个 新 的 记录 。 名 字 仅 仅 是 在 一 个 女人 结婚 或 
离婚 的 时 候 才 会 发 生 改变 ， 并 不 经 常 改变 。 地 址 会 改变 较为 频繁 ， 或 许 每 2 ~ 3 年 就 会 改 
变 一 次 。 性 别 对 大 多 数 人 来 说 从 不 会 改变 。 电 话 号 码 或 许 会 像 地 址 的 更 改 一 样 经 常 改变 。 
因此 将 这 些 属性 放 进 一 个 连续 时 间 记 录 中 是 很 安全 的 。 

现在 考虑 将 职位 属性 放 进 记录 会 发 生 什么 变化 。 每 当 一 个 人 更 换 工作 、 升 职 或 是 调 离 
岗位 ， 或 是 当 公司 重组 时 ， 其 职位 就 很 有 可 能 更 改 。 除 非 有 建立 多 个 连续 时 间 记 录 的 需 
求 ， 否 则 职位 与 其 他 属性 放 在 一 起 就 不 是 一 个 好 主意 。 

图 11-9 显示 了 连续 的 时 间 段 记录 的 一 些 特征 。 

在 设计 连续 时 间 段 记录 时 要 十 分 小 心 ， 因 为 这 时 如 果 属 性 没有 被 适当 地 组 合 在 一 起 
就 有 可 能 导致 切实 的 混乱 。 下 面 举 一 个 简单 的 例子 。 

图 11-10 显示 了 连续 时 间 记 录 中 的 一 些 典 型 的 属性 。 














连续 时 间 自 连续 时 间 自 

特征 : 从 1992 年 12 月 ~ 2005 年 7 月 

-内 容 改 变 缓慢 的 属性 名 称 June Foster 

- 极 少数 属性 生日 一 一 1941 年 11 月 4 日 

-语义 相关 的 属性 地 址 一 一 Yelm 高 速 路 16 号 
属性 B 性 别 一 一 女 
属性 C  ……: 

图 11-9 连续 时 间 段 时 间 变 化 数据 的 一 些 特征 图 11-10 连续 时 间 段 记录 的 含义 


图 11-10 显示 了 姓名 、 出 生日 期 、 地 址 和 性 别 等 属性 被 放 人 连续 时 间 段 记录 。 这 些 数 
据 元 素 是 比较 适宜 的 ， 因 为 : 

。 在 内 容 上 更 改 缓慢。 

。 全 部 都 与 个 人 的 描述 信息 相关 。 

尽管 一 个 简单 的 连续 时 间 段 记录 已 经 十 分 有 用 9 RE 
了 ， 但 是 还 可 以 将 多 个 连续 时 间 段 数据 串 在 一 起 以 在 a 
逻辑 上 形成 一 个 更 大 的 连续 记录 。 图 11-11 显示 了 串 图 11-11 将 一 系列 记录 组 合 形成 随 
在 一 起 的 连续 时 间 段 记录 。 时 间 变 化 的 连续 记录 
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11. 7 一 个 记录 序列 


多 个 记录 形成 了 一 个 连续 的 序列 。 举 例 来 说 ， 一 条 记录 于 2007 年 1 月 21 日 结束 ， 下 
一 条 记录 开始 于 2007 年 1 月 22 日 。 如 此 这 样 ， 多 个 记录 就 从 逻辑 上 形成 了 一 个 连续 集 。 

举 个 简单 的 例子 ，2002 年 7 月 20 日 以 前 June Foster 的 地 址 是 Yelm 高 速 路 。 存 在 一 
条 记录 表明 了 这 个 地 址 。 然 后 June 搬 到 了 塔 斯 卡 卢 萨 县 B 座 公 寓 ， 她 正式 的 搬迁 日 期 是 
2002 年 7 月 21 日 ， 这 样 就 形成 了 一 个 新 的 记录 。 这 两 条 记录 结合 在 一 起 就 显示 了 她 搬迁 
的 日 期 和 时 间 以 及 她 所 呆 过 的 连续 的 地 址 。 

和 尽管 可 以 利用 多 个 连续 时 间 段 记录 建立 一 个 连续 记录 ， 但 是 并 不 允许 重 春 。 如 果 存 在 
记录 的 重合 ， 将 会 导致 逻辑 上 的 不 一 致 。 例 如 ， 如 果 两 条 记录 都 记录 了 June Foster 的 地 址 
信息 ， 并 且 它 们 有 重 又 ， 那么 将 会 说 明 June Foster 某 一 时 段 同时 居住 在 两 个 地 方 。 


11.8 非 重 又 记录 集 


图 11-12 显示 了 多 个 连续 时 间 段 记录 是 不 允许 重 每 的 。 

里 然 多 个 连续 时 间 段 记录 不 允许 重 释 ,但 是 它们 的 时 间 
可 以 是 不 连续 的 。 例如 ，1995 年 时 ，jJune Foster 去 周游 世 
界 。 那 么 在 这 段 时 间 里 ， 她 是 没有 邮寄 地 址 的 。 她 的 地 址 记 
录 只 会 显示 她 出 发 之 前 和 回来 之 后 的 地 址 ， 但 是 当 她 正在 周 ”图 11-12 不 允许 有 重奏 记录 
游 世 界 时 ， 她 并 没有 一 个 固定 的 地 址 。 

图 11-13 显示 了 如 果 符 合 数据 的 实际 情况 ， 就 允许 存在 不 连续 的 时 间 段 . 

当 添 加 新 记录 时 ， 新 添加 的 记录 属于 事务 被 执行 或 执行 完 的 那 一 时 刻 。 依 赖 于 记录 的 
构建 方式 ， 调 整 结束 记录 有 可 能 也 是 很 有 必要 的 。 

图 11-14 显示 了 将 一 条 新 记录 插 进 连续 记录 序列 的 更 新 过 程 ， 









Lar RS 





Oe 汪 
Ne pA 
re 


图 11-13 未 定义 的 时 间 间 隔 是 允许 的 图 11-14 “ 当 需 要 更 新 一 组 时 间 段 记录 时 ， 要 
添加 一 个 新 的 记录 


11.9 开始 和 结束 一 个 记录 序列 


存在 多 种 选择 来 开始 和 结束 连续 时 间 段 记录 的 序列 。 

例如 ， 假 设 最 新 的 记录 是 从 1999 年 5 月 开始 到 现在 。 然 后 在 2007 年 4 月 有 一 次 地 址 
更 改 ， 这 样 就 写 人 一 个 以 2007 年 4 月 为 开始 日 期 的 记录 。 但 是 为 了 保证 数据 库 的 同步 性 ， 
前 一 个 最 新 记录 的 结束 日 期 不 得 不 被 调整 为 2007 年 3 月 。 

总 之 ,一 个 记录 序列 可 以 在 任意 时 间 点 开始 和 结束 。 序列 中 第 一 个 记录 的 开始 日 期 可 
能 是 一 个 实际 值 ， 也 可 能 是 负 无 穷 小 。 当 开始 日 期 是 负 无 穷 小 时 ， 表 明 记 录 包 含 了 从 一 
开始 就 有 的 数据 。 而 当 序列 中 第 一 个 记录 有 一 个 具体 的 开始 日 期 时 ， 对 任意 一 个 比 这 个 
开始 日 期 更 早 的 时 间 点 ， 都 只 是 不 存在 数据 的 定义 。 
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记录 序列 的 结束 操作 也 是 和 上 面 一 样 的 方式 。 一 个 连续 时 间 段 记录 的 序列 中 的 结束 记 
录 的 结束 日 期 可 能 是 一 个 具体 值 ， 也 可 能 是 正 无 穷 大 。 当 其 值 被 设 为 正 无 穷 大 时 ， 就 表 
明 这 个 记录 中 的 值 将 会 一 直 被 应 用 ， 直 到 再 写 人 新 的 记录 。 
例如 ， 假 设 一 份 合 同 的 结束 日 期 是 正 无 穷 
大 。 这 说 明 这 份 合同 是 一 直 有 效 的 ， 直 到 被 通 





知 合同 结束 为 止 。 : 开始 - 负 无 穷 大 ge 
图 11-15 显示 了 开始 和 停止 一 个 连续 时 间 结束 _ 正 无 穷 大 
段 记 录 序 列 的 一 些 选项 。 图 11-15 “对 于 开始 和 结束 的 日 期 有 一 些 选择 


11. 10 ”数据 的 连续 性 


离散 数据 的 一 个 局 限 就 是 在 数据 的 两 个 测量 值 之 间 没 有 连续 性 。 例 如 纳 斯 达 克 周 一 以 
2 540 点 收盘 ， 而 周二 以 2 761 点 收盘 。 这 样 离散 的 数据 就 使 得 不 能 做 出 在 周二 的 某 个 时 
间 纳 斯 达 元 会 高 达 2 900 点 这 样 的 假定 。 事 实 上 除了 每 天 收盘 时 的 数据 外 ， 不 能 对 任何 纳 
斯 达 克 值 做 任何 假定 。 

图 11-16 显示 了 数据 的 离散 性 测量 缺乏 连续 性 。 

而 连续 时 间 段 数据 就 没有 上 述 的 局 限 性 。 借 助 连续 时 间 段 数据 ， 可 以 对 数据 的 时 间 连 
续 性 作 一 个 判断 。 

图 11-17 显示 了 从 连续 时 间 段 数据 中 可 以 得 到 数据 的 连续 性 。 
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图 11-16 ”离散 数据 没有 连续 性 信息 图 11-17 ”连续 时 间 段 数据 含有 连续 性 信息 


虽然 离散 数据 和 连续 时 间 段 数据 是 最 为 广泛 的 数据 形式 ,但 这 并 不 是 DW2. 0 中 时 间 
相关 数据 仅 有 的 形式 。 还 有 男 外 一 种 数据 形式 ， 即 时 间 瓦 解数 据 。 


11. 11 时 间 瓦 解数 据 


图 11-18 显示 了 时 间 瓦 解数 据 的 一 个 简单 的 例子 。 

在 时 间 瓦 解数 据 中 ， 存 在 着 多 种 对 数据 的 度量 形式 。 当 数据 写 人 系统 时 ， 其 以 小 时 来 
度量 。 然 后 当 一 天 结束 时 ,会 把 这 一 天 24 小 时 的 值 都 加 起 来 形成 一 个 一 天 的 值 的 记录 ， 
并 将 这 24 个 小 时 的 度量 值 清 零 ; 在 一 周 结束 时 ， 
会 建立 一 个 一 周 的 总 值 并 将 每 天 的 值 清 零 ; 在 一 
个 月 结束 时 ,会 建立 一 个 一 月 的 总 值 并 将 每 周 的 
值 清 零 ; 在 一 年 结束 时 ， 会 建立 一 个 一 年 的 总 值 
并 将 每 月 的 值 清 零 。 

在 完成 这 些 后 ， 对 于 小 时 、 日 、 周 等 都 仅 有 
一 个 记录 集合 ， 因 此 会 节省 大 量 的 存储 空间 。 2 - 

在 基于 数据 越 新 ， 需 要 的 数据 细节 就 越 多 这 图 11-18 时 间 瓦 解数 据 一 - 另 一 种 时 间 
样 的 假设 上 ， 时 间 相 关 数 据 的 瓦解 表现 得 很 好 。 相关 数据 形式 
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换 句 话说， 如 果 某 人 要 找 今 天 的 某 个 小 时 的 数据 ， 会 很 容易 找到 ， 但 是 如 果 要 寻找 6 个 月 
之 前 的 某 个 小 时 的 数据 ， 就 无 法 找到 了 。 

在 很 多 情况 下 ， 这 种 假设 是 正确 的 且 数 据 瓦 解 很 有 意义 。 然 而 当 假设 是 错误 的 时 候 ， 
时 间 瓦 解数 据 就 会 产生 无 法 正 稼 工作 的 环境 了 。 


11. 12 归档 区 中 的 时 间 相关 变量 


DW2.0 环境 中 最 后 一 部 分 可 以 应 用 时 间 相 关 的 地 方 就 是 归档 区 了 。 实 践 中 ,通常 以 
年 为 单位 存储 数据 。 一 年 的 数据 被 存储 ， 紧 接着 又 一 年 的 数据 被 存储 。 以 这 种 方式 分 制 
数据 有 很 多 充分 的 原因 。 最 有 说 服 力 的 一 项 原因 是 数据 的 语义 每 年 都 会 有 细微 的 变化 。 

某 年 加 入 一 条 新 的 数据 元 素 。 第 二 年 会 加 入 一 个 不 同 定义 的 数据 元 素 。 第 三 年 又 会 有 
一 种 不 同 的 计算 方式 。 每 年 总 会 与 之 前 的 年 份 有 细微 的 变化 。 

图 11-19 显示 了 每 一 年 数据 的 语义 都 会 有 细微 的 变化 。 
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图 11-19 归档 数据 以 年 为 单位 存储 。 注 意 到 每 年 与 其 他 年 份 并 不 是 十 分 地 相同 


11. 13 企业 用 户 的 观点 


对 企业 用 户 来 说 ， 数 据 仓库 中 的 时 间 相 关 是 很 自然 和 正常 的 。 当 一 个 企业 用 户 想 要 查 
询 与 某 个 特定 时 间 相 关 的 数据 时 ， 终端 用 户 需 要 提供 分 析 过 程 的 相关 时 间 。 

当 企 业 用 户 想 要 查询 最 新 数据 时 ， 并 不 输入 日 期 信息 ， 系 统 就 会 知道 它 需要 查找 最 新 
的 数据 集 。 

所 以 从 查询 和 企业 用 户 交 互 的 角度 看 ， 时 间 相 关 就 像 查 询 本 身 一 样 自然 和 正常 。 

DW2.0 的 企业 用 户 得 到 了 比 以 往 所 用 的 环境 更 强大 的 分 析 能 力 。 

DW2.0 的 结构 需要 终端 用 户 知道 ， 某 一 个 日 期 的 数据 会 存在 于 DW2.0 的 某 一 部 分 或 
其 他 部 分 。 例 如 ， 对 归档 区 数据 和 整合 区 数据 的 查询 ， 可 能 会 需要 不 同 的 查询 请 求 。 

然而 ， 企 业 用 户 享受 到 了 将 旧 的 、 休 眠 的 数据 从 整合 区 移 除 所 带 来 的 性 能 上 的 好 处 。 
因此 在 DW2. 0 中 ， 需 要 在 分 区 数据 间 进 行 平衡 。 


11. 14 总 结 


DW2.0 中 的 所 有 数据 以 这 样 或 那样 的 形式 均 与 某 个 时 刻 有 关 。 

交互 数据 都 是 当前 数据 ， 其 在 访问 时 刻 是 准确 的 。DW2. 0 中 其 他 形式 的 数据 记录 都 
带 有 时 间 标 记 。 

时 间 标 记 一 般 有 两 种 形式 。 有 的 数据 附加 了 一 个 日 期 信息 ， 而 有 的 数据 则 附加 了 一 个 
开始 日 期 和 一 个 结束 日 期 。 第 一 种 数据 称 为 离散 数据 ， 而 后 一 种 数据 称 为 连续 时 间 段 
数据 。 

连续 时 间 段 数据 可 以 串 在 一 起 形成 一 个 更 长 的 时 间 段 。 多 个 连续 时 间 段 记录 中 定义 的 
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时 间 段 可 以 是 不 连续 的 ， 但 是 不 允许 有 重重 。 

DW2. 0 中 还 存在 其 他 形式 的 时 间 相 关 ， 例 如 时 间 瓦 解数 据 。 仅 当当 前 数据 需要 被 访 
问 且 在 细节 上 进行 分 析 的 时 候 ， 时 间 瓦 解数 据 是 非常 有 用 的 。 随 着 时 间 推 移 ， 对 于 细节 
的 需求 就 会 减少 。 

在 DW2.0 中 还 有 一 种 时 间 相 关 的 形式 就 是 归档 数据 所 用 的 形式 。 通 常 ， 归 档 数 据 按 
照 每 年 不 同 的 数据 定义 将 数据 组 织 起 来 。 这 就 允许 数据 随 着 时 间 推 移 有 语义 上 的 细微 
变化 。 


第 12 草 DW2.0 的 数据 流 


DW2. 0 构架 包含 许多 组 成 部 分 ， 下 一 代 DW2. 0 数据 仓库 也 包含 了 许多 技术 。 建 立 一 
个 DW2.0 数据 仓库 环境 不 像 盖 房 子 ， 也 不 像 建立 一 个 小 镇 ， 它 更 像 建设 一 个 大 都 市 。 

由 于 DW2. 0 所 涉及 范围 的 庞大 和 复杂 性 ， 它 很 容易 使 人 迷失 。 人 们 很 容易 会 仅仅 关 
注 并 仔细 了 解 DW2.0 的 某 一 方面 。 如 果 这 样 做 了 ， 那 么 你 就 会 忽略 整个 构架 的 更 大 的 
“景象 ”"。 而 有 时 修 ， 从 构架 的 细节 退 后 一 步 去 观察 更 大 的 “景象 ”是 非常 有 用 的 。 


12.1 贯穿 整个 构架 的 数据 流 


在 整个 DW2. 0 构架 中 贯穿 着 一 个 数据 流 。 在 许多 方面 ， 这 个 数据 流 就 像 人 体内 的 血 
液 流 一 样 重要 。 数 据 流 满足 了 DW2. 0 所 完成 的 其 他 一 切 事情 的 需求 。 

数据 流 从 数据 进入 交互 环境 开始 。 数 据 可 以 直接 进入 交互 区 , 或 者 也 可 以 通过 ETL 
处 理 进入 该 区 。 数 据 如 何 进 入 交互 区 完全 取决 于 外 部 应 用 或 DW2. 0 中 的 应 用 。 


12.2 WHAT 


数据 作为 面向 应 用 的 数据 进入 交互 区 。 在 进入 交互 区 之 后 ， 数 据 被 发 送 到 整合 区 。 图 
12-1 就 显示 了 进入 DW2. 0 环境 的 基本 数据 流 。 

数据 流 一 个 令 人 感 兴趣 的 方面 是 数 
据 流 的 速度 和 传输 量 。 数 据 流入 交互 区 
的 速度 很 快 ， 在 外 部 应 用 环境 中 仅仅 传 
输 几 毫秒 就 会 进入 交互 区 。 具 有 这 种 性 
质 的 输入 交易 数据 可 视 为 实时 数据 。 当 
然 ， 如 果 交易 是 从 交互 区 直接 执行 ， 数 
据 就 根本 没有 延 时 。 

在 其 他 情况 下 ， 外 部 应 用 的 交易 数 
据 可 能 需要 一 个 小 时 或 一 天 才能 进入 交 
互 环境 。 进 入 交互 环境 时 ， 数 据 的 时 间 
延迟 完全 由 对 数据 的 业务 需求 所 决定 。 
如 果 有 一 个 合理 的 业务 实例 要 求 数据 立 
即 进入 交互 环境 ， 那 么 这 些 数据 就 应 该 
立即 进入 。 如 果 没 有 ,那么 数据 的 传送 
就 不 必 很 迅速 。 

需要 重点 指出 的 是 : 数据 进入 交互 
区 需要 的 速度 越 快 ， 为 完成 这 种 快速 数 i 
nit se 图 12-1 数据 传人 交互 区 再 从 交互 区 传人 整合 区 

昂贵 。 
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12.3 ETL 的 角色 


来 自 于 外 部 应 用 的 数据 通常 由 ETL 
处 理 进 入 交互 区 。 当 然 ， 数 据 通过 简单 的 文件 传输 进入 交互 区 也 是 可 能 的 ， 但 这 不 是 很 
币 见 。 数 据 更 可 能 是 经 由 标准 的 了 上 TL 技术 进入 交互 区 。 

传 到 整合 区 的 数据 来 自 于 交互 区 。 数 据 也 可 能 直接 传人 整合 区 而 不 经 过 交互 区 。 一 般 
的 处 理 都 发 生 在 数据 从 交互 区 传人 整合 区 的 时 候 。 通 常数 据 是 通过 ETL 处 理 传 人 整合 区 
的 ，ETL 处 理 把 数据 从 一 个 面向 应 用 的 结构 重组 成 为 一 个 企业 数据 结构 。 


12.4 进入 整合 区 的 数据 流 


相 比 于 从 整合 区 到 交互 区 的 数据 流 ， 进 入 整合 区 的 数据 流 在 速度 上 更 为 宽松 。 数 据 流 
以 定期 的 方式 〈 按 天 ， 按 周 ， 按 月 ， 甚 至 按 季 ) 进入 整合 环境 。 图 12-2 描述 了 进入 整合 
区 的 数据 流 的 速度 。 

数据 流 以 小 的 快速 的 喷射 形式 进入 交 
互 区 ,每 次 就 进入 一 个 数据 记录 。 整 个 文 
件 或 大 量 的 记录 一 次 性 传人 交互 区 是 不 常 
见 的 。 数 据 传 人 交互 区 如 同 细 雨 ， 而 不 是 
洪水 。 

数据 进入 整合 区 是 由 事务 的 执行 开启 
的 。 一 旦 一 个 事务 完成 ， 它 所 包含 的 数据 
就 准备 进入 整 全 区。 当然， 事务 记录 可 以 
成 批 地 传 入 。 但 在 进入 交互 区 之 前 对 事务 
的 收集 和 排队 不 可 估量 地 减缓 了 事务 处 理 
速度 ， 使 得 不 能 达到 交互 过 程 的 目标 。 

数据 传输 到 整合 区 的 触发 过 程 是 比较 
简单 的 : 随 着 时 间 的 推移 ， 在 某 些 情况 下 ， 
数据 需要 以 小 时 为 单位 迅速 进入 整合 区 。 
在 其 他 情况 下 ， 数 据 可 以 以 天 为 单位 等 待 
转移 。 通 常 ， 如 果 报 表 所 需 的 数据 需要 精 
确 到 秒 ， 那 么 该 报表 就 应 该 使 用 交互 区 的 ， 和 
数据 来 建立 。 一 般 来 说 ， 从 整合 区 来 产生 图 12-2 传输 速度 
需要 获得 直接 或 实时 数据 的 报告 或 分 析 是 
错误 的 。 基 于 整合 数据 的 报告 和 分 析 都 具有 战略 性 质 ， 不 应 依赖 于 精确 到 秒 的 实时 数据 。 
因此 ， 从 交互 区 到 整合 区 的 数据 流 的 移动 可 用 一 个 较为 宽松 的 安排 来 完成 。 

图 12-3 表示 了 从 外 部 应 用 到 交互 区 以 及 从 交互 区 到 整合 区 的 数据 移动 的 触发 。 


12.5 进入 近 线 区 的 数据 流 


正如 从 外 部 应 用 到 交互 区 一 样 ， 从 交互 区 到 整合 区 的 数据 流 同 样 重要 。 在 DW2. 0 数 
据 仓库 中 ， 它 们 并 不 是 仅 有 的 主要 数据 流 ， 从 整合 区 到 近 线 区 的 数据 流 是 DW2.0 环境 中 


非常 非常 人 









| 从 快速 到 减缓 












DW2. 0 的 搁 握 着 


129 


男 外 一 个 重要 的 数据 流 。 这 种 数据 流 是 可 选 的 ， 并 出 现在 以 下 儿 种 情况 中 : 


。 整合 区 有 很 多 数据 。 
。 交互 区 中 的 某 些 部 分 数据 正 
在 休眠 。 

e 对 整合 区 数据 中 有 访问 的 要 求 。 

如 果 整 合 区 的 数据 不 符合 以 上 
的 标准 ， 那 么 就 没有 必要 将 其 移 至 
近 线 区 。 在 许多 方面 ， 近 线 区 都 充 
当 着 整合 区 中 数据 的 一 个 缓存 ， 当 
数据 不 需要 很 频繁 地 访问 时 ， 就 放 
置 在 近 线 区 。 

近 线 区 基于 非 磁盘 存储 。 因 此 ， 
近 线 数据 存储 起 来 不 会 很 昂贵 ， 而 
且 能 够 容纳 大 量 数据 。 

图 12-4 表示 的 是 从 整合 区 到 近 
线 区 的 数据 流 。 

来 目 整 合 区 的 数据 流 一 般 是 比 
较 慢 的 。 通 常 整合 区 的 数据 都 会 定 
期 地 大 块 移动 。 例 如 ， 每 月 一 次 ， 
每 次 四 分 之 一 。 


数据 访问 的 概率 降低 是 将 整合 区 和 


近 线 区 减少 了 整合 区 的 数据 量 ， 这 
就 降低 了 数据 仓库 环境 的 成 本 并 提 
高 了 性 能 。 减 少 整合 环境 中 不 被 经 
常 访问 的 数据 能 够 为 被 经 常 访问 的 
数据 释放 整合 环境 中 的 磁盘 存储 。 


12.6 进入 归档 区 的 数据 流 


数据 同样 也 可 以 从 整合 区 传人 归 
档 区 。 从 整合 区 移 和 人 归档 区 的 数据 和 
移 人 近 线 区 的 数据 有 着 关键 的 区 别 。 


当 数 据 移入 近 线 区 时 ， 数 据 结 


构 和 数据 格式 得 以 保存 。 这 意味 着 
数据 在 必要 时 可 以 迅速 和 顺利 地 从 
近 线 区 回 到 整合 区 。 近 线 区 的 目的 
在 于 支持 整合 区 的 数据 访问 。 

与 此 相反 ， 当 数据 传人 归档 区 ，， 
并 没有 打算 让 数据 迅速 地 回 到 整合 
区 。 归 档 区 的 目的 是 为 了 长 久 地 保 
存 数 据 。 在 未 来 的 某 一 时 刻 ， 数 据 








国 国 和 ee 交 帮 则 和 
始 传送 ， 以 成 批 处 
EE 理 的 方式 按 天 传送 


图 12-3 ”决定 数据 何 时 进入 不 同 区 域 的 触发 





图 12-4 从 整合 区 到 近 线 区 的 数据 流 
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可 能 需要 取 自 归档 环境 并 保存 在 某 处 用 于 特别 分 析 ， 甚 至 可 能 被 送 回 到 整合 环境 ， 但 归 
档 环 境 并 没有 对 整合 区 立即 和 详细 的 支持 的 打算 。 对 整合 区 的 立即 和 独立 的 文 持 是 近 线 
区 扮演 的 角色 。 
数据 转移 至 归档 区 的 目的 是 为 了 消除 低 访 问 率 的 数据 。 图 12-5 表明 数据 从 整合 区 到 
归档 区 的 移动 过 程 。 I 
从 整合 环境 到 归档 区 的 数据 流 的 速度 很 
慢 。 通 稼 整合 数据 移 人 归档 区 需要 一 个 季度 
甚至 一 个 年 度 的 周期 。 


12.7 下降 的 数据 访问 概率 


当 整 合 数据 的 访问 概率 出 现下 降 时 ， 会 
触发 数据 从 整合 区 移 人 归档 区 。 有 两 种 基本 
方式 来 确认 数据 访问 的 概率 是 否 下 降 。 方 法 
之 一 是 基于 日 期 。 例 如 ， 所 有 超过 3 年 以 上 
的 数据 都 要 从 整合 区 移 除 。 

为 一 种 确认 数据 访问 概率 的 方法 是 使 用 
数据 仓库 监视 。 数 据 仓 库 监视 会 检查 对 整合 
区 数据 的 访问 次 数 。 

在 这 两 种 方法 之 间 ， 使 用 数据 仓库 监视 
是 迄今 为 止 最 准确 的 方法 。 

之 前 讨论 的 数据 移动 可 以 被 认为 是 ge 
DW2. 0 数据 仓库 环境 中 数据 的 正常 日 常 转 图 12-5 从 整合 区 到 归档 区 的 数据 流 
移 ， 但 还 有 两 种 其 他 类 型 的 数据 移动 也 是 值 
得 注意 的 。 


12.8 数据 的 异常 流 


接 下 来 的 两 种 DW2. 0 环境 中 数据 的 移 
动 方式 只 能 以 有 限 的 数据 需要 为 基础 。 

第 一 种 数据 的 非常 规 移动 是 数据 从 归档 
环境 移 回 到 整合 区 。 在 这 种 情况 下 ， 无 论 出 
于 何 种 原因 ， 数 据 一 直 被 视 为 用 来 做 标准 分 
析 处 理 。 这 意味 着 数据 的 访问 概率 已 经 提 
升 ， 且 因为 数据 访问 的 概率 上 升 和 其 他 原 
因 ， 数 据 比 较 适 合 属于 整合 区 。 

通常 ， 数 据 以 大 块 的 形式 从 归档 区 移动 
到 整合 区 ， 而 不 是 按 每 次 少数 记录 的 形式 。 
在 任何 情况 下 ， 返 回 整合 区 的 归档 数据 的 传 
送 是 按 需 求 来 进行 的 。 

图 12-6 描述 了 从 归档 区 到 整合 区 数据 East 
的 移动 。 图 12-6 Pe 
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数据 的 男 一 种 非常 规 移 动 发 生 在 近 线 环境 的 数据 需要 返回 到 整合 环境 的 时 候 。 这 种 数 
据 传 送 可 以 用 两 种 方式 来 实现 。 位 于 这 两 种 环境 之 间 的 CMSM 软件 可 以 用 来 管理 数据 的 
单个 记录 的 传送 。CMSM 工具 将 记录 放 在 整合 区 中 ， 如 果 这 些 记 录 一 直 在 整合 区 ， 那 么 这 
些 记录 就 可 以 显示 。 这 个 传送 会 很 快 完成 ， 因 此 不 会 出 现 严重 的 系统 性 能 退化 。 终 端 用 


户 可 以 提交 查询 ， 系 统 能 够 自动 感应 
到 所 需 的 数据 有 一 部 分 位 于 近 线 存储 
中 。 然 后 ， 系 统 利 用 CMSM 工具 来 
查找 、 获 取 数 据 ， 并 把 数据 放 在 整合 
存储 区 ， 然 后 执行 查询 。 

从 近 线 区 到 整合 区 的 全 体 数 据 的 
移动 方式 还 可 以 按 批 处 理 模 式 来 进行 。 
在 这 种 情况 下 ， 数 据 可 能 被 CMSM 
软件 移动 或 手动 移动 。 在 任何 情况 
下 ， 都 是 因为 预期 的 访问 概率 上 升 ， 
旧 数 据 才 被 送 回 到 整合 环境 。 图 12-7 
描述 了 从 近 线 区 到 整合 区 的 数据 
移动 。 

在 DW2.0 环境 中 ， 最 后 还 有 一 
种 数据 的 移动 值得 讨论 一 一 从 整合 区 
到 交互 区 的 数据 移动 ， 也 可 以 被 称 为 
数据 “回流 ”。 

从 整合 区 到 交互 区 的 数据 移动 很 
少 发 生 。 通 常 参与 的 数据 量 并 不 大 。 
当 这 种 回流 发 生 时 ， 必 须 做 到 不 能 影 
啊 在 线性 能 ， 这 是 交互 环境 的 一 个 重 
要 组 成 部 分 。 图 12-8 描绘 了 从 整合 区 到 交 
互 区 的 数据 回流 。 


12.9 企业 用 户 的 观点 


数据 流 是 DW2. 0 环境 很 自 然 和 正常 的 
特征 。 企 业 用 户 需 要 意识 到 有 这 样 一 个 流 
动 ， 但 他 /她 不 必 亲 身 参与 到 这 些 流 动机 制 
中 去 。 

只 有 一 种 情况 ,企业 用 户 参 与 DW2.0 
中 的 数据 流 ， 就 是 当 企 业 用 户 需 要 提醒 系 
统管 理 员 有 必要 从 归档 区 或 者 近 线 区 撤 出 
数据 返回 到 整合 区 的 时 候 ， 这 种 请 求 被 称 
为 配置 请 求 。 在 提交 查询 之 前 ， 会 有 一 个 
配置 请 求 。 配 置 请 求 说 明了 需要 什么 样 的 








图 12-7 从 近 线 区 到 整合 区 的 数据 移动 





图 12-8 从 整合 区 到 交互 区 的 数据 回流 
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数据 参数 用 来 从 近 线 区 或 归档 区 中 选取 数据 。 此 外 ， 配 置 请 求 还 告诉 系统 数据 需要 在 整 
合 区 中 保留 多 久 。 

有 些 数据 是 一 项 大 型 研究 的 一 部 分 ， 需 要 在 整合 区 放置 很 长 一 段 时 间 ， 还 有 一 些 数 据 
仅 需 短期 保留 。 一 旦 数据 被 放置 在 整合 区 并 已 经 被 使 用 ， 它 就 可 以 安全 地 从 整合 区 移 
除了 。 : 
但 是 除了 这 些 简短 的 交互 ，DW2. 0 中 的 数据 流 还 以 未 知 的 速率 持续 传送 至 企业 用 户 。 

数据 流 在 整个 DW2. 0 中 就 像 是 内 燃 机 中 的 汽油 流 。 司 机 知道 有 这 样 一 个 流 ， 但 相信 
内 燃 机 自己 能 适当 地 运行 。 


12. 10 二 总 蔡 


数据 流 贯 穿 整个 DW2. 0 环境 。 

数据 直接 或 通过 ETL 从 外 部 的 应 用 进入 交互 区 。 来 自 交 互 区 的 数据 通过 ETL 处 理 流 
人 入 整合 区 。 

随 着 数据 的 变 旧 ， 数 据 从 交互 区 移入 到 近 线 区 或 归档 区 。 

在 有 限 的 基础 上 ， 数 据 可 能 会 从 归档 区 回流 到 整合 区 ， 并 且 数 据 还 会 偶尔 从 近 线 区 流 
人 整合 区 。 
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DW2. 0 中 最 重要 的 过 程 之 一 是 ETL 一 一 抽取 /转换 / 装载 (extract/transform/load) 的 
处 理 过 程 。ETL 处 理 在 数据 进入 交互 区 或 是 数据 通过 交互 区 进入 整合 区 时 收集 、 整 理 并 集 
成 数据 。ETL 处 理 过 程 对 于 DW2. 0 环境 中 的 日 常 操作 是 最 基本 的 过 程 。 


13. 1 转换 数据 状态 


ETL 是 一 种 典型 的 比 纯 数据 流 更 加 强大 的 东西 ， 是 一 种 改变 数据 状态 的 机 制 。 当 数据 
通过 并 被 ETL 处 理 转换 时 ， 它 就 经 历 了 一 次 根本 性 的 状态 转变 ， 从 应 用 状态 演变 到 企业 
状态 。 这 一 根本 性 的 改变 是 DW2. 0 基本 理论 和 存在 的 核心 ， 

ETL 并 不 仅仅 完成 数据 的 收集 和 传输 工作 ， 其 对 数据 状态 的 改变 也 非常 重要 ， 这 也 是 


ETL 是 DW2.0 中 的 基本 组 件 的 原因 。 
13.2 ETL 适 用 范围 


图 13-1 说 明了 在 DW2.0 中 ETL 处 理 
过 程 的 适用 范围 。 

ETL 处 理 过 程 能 做 很 多 事 ， 它 能 从 已 
经 多 年 不 被 主流 DBMS 使 用 的 技术 (如 
IMS. VSAM CICS、 IDMS、Model 204 以 
及 Adabas 等 ) 中 收集 那些 遗留 的 数据 。 收 


集 这 样 的 数据 不 是 件 容易 事 ， 因 为 每 个 旧 


的 应 用 环境 的 接口 都 需要 采用 其 自己 的 技 
术 来 完成 。 

在 收集 到 这 些 遗 留 数据 后 ， 真 正 的 数 
据 转 换 工作 就 开始 了 。 旧 的 遗留 系统 的 最 
大 问题 是 ， 它 们 在 设计 之 初 并 不 是 同 构 的 ， 
在 结构 、 格 式 、 计 算 、 数 据 定义 以 及 其 他 
语义 方面 都 存在 差异 。 简 而 言 之 ， 要 想 使 
旧 的 应 用 数据 适用 于 企业 数据 环境 还 需要 
做 大 量 的 工作 ， 而 正 是 由 ETL 来 完成 对 旧 
数据 的 主要 纠正 工作 的 。 


13.3 应 用 数据 到 企业 数据 的 转换 








图 13-1 ETL 处 理 是 DW2.0 中 必 不 可 少 的 一 部 分 


图 13-2 描述 了 ETL 如 何 将 应 用 数据 转换 为 企业 数据 。 
ETL 处 理 能 够 以 两 种 基本 的 模式 进行 操作 : 在线 实时 处 理 和 批 处 理 。 
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13. 4 ETL 工作 模式 


当 ETL 以 在 线 模式 工作 时 ， 从 执行 旧 数 据 处 理 开始 ， 到 这 一 处 理 反 映 在 DW2. 0 中 为 
止 ， 这 段 时 间 以 很 短 的 时 间 单 位 来 度量 ， 比 如 毫秒 。 例如， 在 旧 系 统 环境 中 ， 一 位 银行 
收纳 员 在 上 午 11 :32 进行 一 笔 交 易 ，ETL 能 同时 捕 提 到 交易 已 执行 这 一 信息 ， 并 且 在 10 
毫秒 内 就 将 该 交易 移入 DW2.0 环境 。 该 交易 被 送信 DW2.0 的 速度 如 此 之 快 ， 以 至 于 其 
看 起 来 是 在 旧 系 统 环境 中 和 DW2. 0 中 同步 发 生 的 。 事 实 上 ， 该 交易 并 没有 在 执行 的 同时 
被 ETL 所 处 理 ， 只 是 其 发 生得 如 此 之 快 ， 以 至 于 看 起 来 是 同步 发 生 了 。 

实时 ETL 的 问题 是 ， 速 度 通常 被 看 
作 是 主要 的 成 功 因 素 。 正 是 因为 速度 成 
为 衡量 成 功 的 主要 标准 ， 所 以 进入 DW2.0 
的 数据 能 够 被 转换 的 并 不 多 。 

另 一 种 ETL 处 理 模式 是 批 处 理 模 
式 。 在 该 模式 下 ， 旧 系统 中 的 交易 首先 
被 批量 存储 ， 然 后 ， 在 合适 的 时 间 (也 
许 是 突然 ) 对 这 一 批 交易 执行 ETL 处 理 
过 程 。 这 就 意味 着 从 旧 系 统 处 理 了 交易 
到 DW2.0 意识 到 这 一 交易 恐怕 已 经 过 
了 24 小 时 甚至 更 长 时 间 了 。 批 量 ETL 整合 区 
的 一 个 优点 是 有 足够 的 时 间 进 行 有 效 的 
数据 转换 处 理 。 

通常 ， 实 时 ETL 比较 昂贵 并 且 没 有 图 13-2 ”ETL 的 实际 功能 是 将 应 用 数据 转换 为 企业 数据 
多 少 转换 操作 ， 批 处 理 ETL 过 程 无 法 在 
系统 中 快速 移动 数据 ， 但 它 便宜 得 多 并 且 支 持 更 多 的 数据 转换 。 

究竟 选择 批 处 理 ETL 处 理 还 是 实时 ETL 处 理 ， 更 多 的 是 一 种 商业 选择 而 非 技 术 选 择 。 
有 些 数据 一 一 简单 交易 数据 ， 例 如 银行 提 款 一 一 常常 采用 实时 模式 处 理 ， 而 那些 更 为 麻烦 
和 复杂 的 数据 就 不 能 采用 实时 模式 处 理 。 然 而 ， 在 批 处 理 ETL 情况 下 ， 并 不 需要 考虑 
ETL 处 理 的 快速 移动 ， 花 费时 间 做 正确 的 转换 比 快速 完成 更 重要 。 

图 13-3 给 出 了 ETL 处 理 的 两 种 模式 。 














13.5 源 和 目标 
分 析 人 员 在 源 操 作 数 据 进 入 数据 仓库 之 | 
前 ， 就 通过 建立 源 到 目标 的 映射 决定 了 应 用 哪 在 线 实时 
种 ETL 逻辑 。 这 种 映射 简单 地 说 明了 哪些 数据 图 13-3 ETL 有 两 种 操作 模式 


必须 放置 在 DW2.0 中 ， 这 些 数据 来 自 哪 里 ， 
对 这 些 数据 要 做 哪些 必要 的 逻辑 操作 、 计 算 或 格式 转换 。 数 据 源 一 一 操作 应 用 系统 环 
境 一 一 被 称 为 “ 源 ”， 数 据 在 DW2. 0 中 所 处 的 位 置 称 为 “目标 ”， 产 生 原 始 数据 的 源 系 统 
称 为 “记录 系统 ”。 

在 流 回 DW2.0 的 各 单元 数据 的 源 到 目标 的 映射 过 程 中 ， 以 下 问题 是 必须 要 回答 的 : 

。 哪个 源 系统 中 的 哪个 特定 单元 的 数据 将 构成 数据 仓库 中 的 数据 ? 
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。 如 何 处 理 相同 数据 的 多 个 来 源 ? 

如 采 需 要 数据 的 默认 值 必须 做 些 什 么 ? 

必须 做 哪些 逻辑 操作 才能 使 得 数据 适应 企业 状态 ? 

。 为 将 数据 重新 组 织 为 企业 状态 下 的 数据 ， 必 须 应 用 哪些 计算 ? 
。 为 了 建立 企业 数据 ,必须 完成 哪些 重 构 或 格式 转换 ? 

源 到 目标 数据 映射 的 工作 需要 在 ETL 过 程 设计 开始 之 前 就 完成 。 


13.6 ETL 映射 源 


图 13-4 给 出 了 一 个 ETL 数据 的 源 到 
目标 映射 。 

业务 规则 是 管理 映射 到 DW2.0 中 的 
数据 的 必要 组 件 之 一 ， 它 对 送 往 DW2.0 
的 数据 有 着 显著 的 影响 ， 提 示 着 数据 的 
正确 性 或 质量 。 但 是 ,不同 遗留 系统 的 
业务 规则 不 同 。 因 此 ，ETL 过 程 必须 像 
裁判 一 样 来 决定 对 于 各 单元 数据 而 言 哪 
条 业务 规则 凌驾 于 其 他 规则 之 上 。 

图 13-5 说 明 业 务 规则 以 及 源 到 目标 
映射 对 于 ETL 规范 来 说 都 是 必要 的 输入 。 





业务 规则 








图 13-5 ”映射 与 业务 规则 决定 ETL 处 理 


13.7 状态 转换 一 一 实例 


数据 在 经 过 ETL 处 理 过 程 时 转换 状态 。ETL 处 理 将 数据 由 应 用 状态 转换 为 企业 状态 。 

对 门外汉 而 言 ， 这 里 发 生 的 任何 异常 情况 并 不 明显 。 事 实 上 ， 很 多 情况 下 数据 只 是 由 
一 个 环境 换 到 另 一 个 环境 ， 因 为 它 的 操作 状态 和 企业 状态 根本 没有 差别 。 但 是 另外 二 此 
情况 中 ,需要 进行 显著 的 数据 转换 。 
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图 13-6 给 出 了 一 些 简 单 的 转换 。 


应 用 数据 A: 
-美元 ， 月 底 ， 含 利息 : 
应 用 数据 B: 
-澳元 ， 第 30 天 ， 不 含 利息 
应 用 数据 C: 


企业 数据 
-欧元 ， 月 底 ， 不 含 利息 





图 13-6 尽管 交互 区 与 集成 区 中 的 数据 有 相似 之 处 ,但 这 些 数据 并 非 是 完全 相同 或 元 余 的 


该 图 表明 来 自 同 一 事物 的 应 用 数据 可 能 以 不 同 的 形式 存在 。 有 不 同 种 类 的 货币 单位 ， 
有 不 同 的 利率 计算 方法 ， 也 有 不 同 的 账目 清算 截止 日 期 。 为 了 从 企业 角度 了 解 这 些 数据 ， 
必须 调和 所 有 的 差异 。 该 组 织 的 业务 规则 可 能 是 规定 在 企业 数据 状态 下 ， 现 金 以 欧元 来 
衡量 ， 所 有 会 计 工作 截止 日 期 都 是 当月 的 最 后 一 天 ， 利息 不 包括 在 某 些 计算 中 。 在 源 数 
据 进 入 数据 仓库 环境 的 过 程 中 ， 正 是 由 ETL 来 完成 以 上 这 些 调整 的 。 

在 有 些 情况 下 ， 有 人 说 : “我 无 法 信任 DW2.0 数据 ， 因 为 我 上 周 运 行 了 一 个 报表 ， 
然后 我 在 DW2. 0 中 运行 同一 报表 时 却 得 到 了 不 同 的 回答 ， 这 意味 着 DW2.0 不 可 信 。” 产 
生 这 种 困惑 的 原因 是 人 们 不 理解 企业 数据 和 应 用 数据 之 间 的 差异 ， 事实 上 ， 来自 不 同 源 
的 报表 就 应 该 是 不 同 的 。 

为 了 理解 为 什么 会 发 生 这 种 情况 ， 想 象 一 下 ， 某 企业 的 会 计 系 统 中 规定 截止 日 期 是 当 
月 的 28 日 ， 一 个 报表 显示 本 月 月 未 余额 是 $108 076 ， 该 交易 经 过 ETL 过 程 处 理 。 假 定 企 
业 会 计 截 止 日 期 是 当月 的 31 日 ， 而 在 29 日 又 有 一 笔 交 易 ， 那 么 ， 操 作 数 据 中 会 将 该 交易 
在 当月 的 交易 总 额 中 体现 出 来 ， 而 企业 数据 却 将 该 交易 在 下 月 的 交易 总 额 中 体现 出 来 。 

数据 确实 有 差异 ， 但 这 种 差异 是 由 应 用 数据 到 企业 数据 的 转换 引起 的 。 


13.8 更 加 复杂 的 转换 


图 13-6 中 给 出 的 数据 转换 实际 上 是 较为 简单 的 ， 当 需要 转换 数据 关键 字 时 ， 数 据 转 
换 就 变 困 难 了 。 通 常 ， 当 需要 转换 关键 字 时 ， 需 选 定 一 个 被 认为 是 合适 的 应 用 程序 的 关 
键 字 ， 其 他 应 用 程序 都 遵循 这 种 关键 字 结 构 。 虽 然 大 多 数 关键 字 转 换 都 是 通过 选 定 一 种 
关键 字 格 式 来 解决 的 ， 但 在 ETL 过 程 中 偶尔 也 需要 将 数据 的 关键 字 完 全 转换 或 替换 成 一 
种 全 新 的 关键 字 格 式 。 不 论 以 什么 样 的 方法 ， 在 设计 ETL 时 都 必须 指定 数据 关键 字 转 换 
规则 。 


13.9 ETL 与 吞吐 量 
数据 吞吐 量 是 ETL 处 理 另 一 个 关注 的 问题 。 即 使 是 只 包含 执行 一 个 操作 的 最 简单 的 
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ETL 人 处理， 如 果 和 吞吐 量 方面 有 问题 ， 也 可 以 并 行 化 ETL 处 理 。 

当 一 个 ETL 工作 流 被 并 行 化 时 ， 一 部 分 数据 经 过 一 个 ETL 处 理 ， 男 一 部 分 工作 流 经 
过 同一 ETL 处 理 的 另 一 个 拷贝 。ETL 处 理 和 工作 流 被 多 次 复制 ， 直 至 获得 邻 人 满意 的 吞 
吐 量 。 并 行 ETL 吞吐 流 的 建立 大 大 削减 了 整个 数据 ETL 处 理 所 耗 费 的 时 间 。 

图 13-7 说 明 ETL 处 理 能 够 被 并 行 化 。 

从 理论 上 来 说 ，ETL 处 理 必须 完成 大 量 的 
转换 活动 。 其 中 任意 一 个 转换 活动 通常 都 不 是 
很 复杂 的 ,但 是 在 数据 的 一 次 通行 中 必须 完 
所 有 的 转换 ， 对 于 ETL 处 理 而 言 这 的 确 很 复杂 。 

图 13-8 给 出 了 一 些 典 型 的 必须 由 ETL 处 理 














来 完成 的 转换 。 

该 图 给 出 了 许多 可 能 发 生 在 ETL 处 理 中 的 ”图 13-7 如 果 吞 吐 量 方面 有 问题 ， 那 么 ETL 
数据 转换 种 类 ， 和 包括 : 可 以 并 行 处 理 以 解决 这 一 问题 

。 概括 处 理 

。 日 期 格式 的 调整 一 

。 逻辑 规范 一 一 例如 ， 将 “Male/Female” 月 /月 /年 一 > 年 /月 /日 

转换 成 “M/F” 0 

e。 数据 聚合 | "一 一 福生 小 

。 默认 值 的 提供 可 一 ~ 是 国 

。 ASCII 转换 为 EBCDIC hp We he 

。 DBMS 转换 是 ORACLE DB2 

。 关键 字 的 重 构 或 创建 a es 





以 上 仅仅 是 ETL 处 理 需 要 完成 的 转换 活动 图 13-8 ETL 有 主要 目的 是 转换 数据 
中 的 一 小 部 分 。 


13. 10 ETL 与 元 数据 


尽管 ETL 处 理 的 主要 目的 是 根据 应 用 数据 创建 企业 数据 ， 但 它 还 有 一 个 次 要 的 目的 。 
ETL 还 可 以 用 于 创建 数据 转换 的 一 个 可 审核 的 记录 ， 即 一 条 被 置 于 元 数据 中 的 数据 转换 审 
核 记录 。 如 图 13-9 所 示 ， 元 数据 成 为 ETL 处 理 一 个 重要 的 辅助 副产品 。 

元 数据 是 一 种 ETL 处 理 很 容易 就 产生 的 副产品 。 
分 析 人 员 在 设计 ETL 处 理 时 创建 的 源 到 目标 数据 映 身 ee 
本 身 就 是 一 种 元 数据 的 设计 。 事实 上 ， 所 有 的 源 到 目 
标 数 据 映 射 不 过 就 是 一 个 数据 转换 审核 记录 ， 也 就 是 
元 数据 。 源 到 目标 数据 映射 是 “关于 数据 的 数据 "” ， 是 
关于 数据 如 何 按照 自身 的 方式 转换 进入 数据 仓库 的 具 
体 数 据 ， 因 此 也 是 一 种 跟踪 ETL 数据 转换 的 设计 。 

对 于 决策 支持 分 析 人 员 而 言 ，ETL 数据 转换 元 数 
据 可 能 是 非常 重要 的 工具 。 终 端 用 户 往往 想 要 从 分 析 
用 的 数据 中 找到 更 多 信息 ， 元 数据 作为 ETL 数据 转换 “图 13-9 元 数据 是 ETL 处 理 的 副产品 





138 党 13 个 


处 理 的 副产品 ， 成 为 满足 终端 用 户 需求 的 容易 获得 的 第 一 步 。 
13. 11 ETL 与 审核 记录 


与 在 源 数据 经 过 ETL 处理 时 获取 和 提供 可 用 的 元 数据 同样 重要 的 是 ， 对 ETL 处 理 的 
审核 记录 的 需要 。 

图 13-10 指出 ， 审 核 记录 可 以 在 元 数据 经 过 ETL 处 理 后 留 下 来 。 审 核 记录 与 元 数据 非 
党 相似 ， 然 而 审核 记录 包含 了 更 多 关于 数据 经 过 ETL 处 理 的 详尽 数据 。 典 型 的 数据 转换 
审核 记录 包括 : 

e。 一 天 中 处理 的 记录 数 

e ETL 成 功 完成 大 批 记录 处 理工 作 的 指示 
一 天 中 ETL 失败 的 次 数 
任何 ETL 失败 的 原因 
如 何 解 决 失 败 的 描述 
新 加 入 DW2.0 的 记录 数 
读 入 ETL 处 理 的 记录 数 
ETL 处 理 局 动 和 运行 的 时 长 





13. 12 ”ETL 与 数据 质量 图 13-10 ETL 处 理 总 会 遗留 一 些 审核 记录 


数据 经 过 ETL 处 理 时 ， 可 以 做 些 基本 的 数据 质量 检查 其 至 编辑 工作 。 由 于 源 数据 无 
论 如 何 都 必须 通过 ETL 处 理 进入 数据 仓库 ， 所 以 在 ETL 中 只 需要 少数 额外 的 资源 用 以 评 
佑 数据 质量 。 例 如 ， 作 为 ETL 处 理 的 一 部 分 ， 以 下 的 数据 质量 检查 就 很 容易 做 到 : 

。 域 检查 

。 范围 检查 

。 合理 性 检查 

应 当 指 出 的 是 ，ETL 处 理 中 做 的 任何 数据 质量 保证 都 仅 限 于 对 单个 数据 记录 的 处 理 
中 。 换 名 话说 ， 如 果 需 要 多 条 数据 记录 来 确定 数据 合法 性 或 质量 ， 那 么 这 种 数据 质量 的 
核查 /检查 对 ETL 来 说 就 难以 做 到 了 。 

图 13-11 说 明 数 据 质 量 检 查 可 以 作为 ETL 处 理 的 一 部 分 来 完成 。 


13. 13 创建 ETL 


创建 ETL 程序 有 两 种 基本 的 方法 : 一 种 
方法 是 采用 一 种 编程 语言 或 工具 从 零 开 始 创 
建 EIL， 全 如， 用 汉 8Nat、C 或 者 所 年 和 ， 另 
一 种 方法 是 购买 第 三 方 设计 的 由 在 用 于 ETL 
处 理 的 开发 的 软件 包 ， 例 如 Ascential、Infor- 
matica 或 者 Talend。 这 两 种 方法 都 各 有 利 壮 。 

采用 从 零 开 始 创建 ETL 处 理 的 优点 在 于 
它 能 够 运行 机 构想 要 的 和 具体 规定 的 任何 逻 
辑 操作 ， 任 何 能 被 编程 实现 的 东西 都 可 以 包 图 13-11 PTL 为 数据 质量 检查 提供 绝 佳 的 机 会 
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含 在 一 个 ETL 中 。 它 的 缺点 在 于 绝 大 部 分 ETL 程序 都 是 标准 例 程 ， 不 需要 作 任 何 规定 。 
此 外 ， 随 着 时 间 的 推移 ， 维 护 代 码 是 一 种 不 佳 的 、 昂 贵 的 、 消 耗资 源 的 方法 。 

采用 第 三 方 软件 的 优点 在 于 能 够 比 上 述 方法 更 迅速 地 建立 ETL 处 理 。 另 外 ， 第 三 方 
软件 的 代码 更 容易 维护 。 问 题 在 于 几乎 总 需要 那么 一 些 专门 的 数据 转换 算法 ， 它 们 是 如 
此 复杂 ， 以 至 于 难以 整合 进 任何 之 前 已 经 编程 实现 的 第 三 方 技术 中 。 


13. 14 代码 创建 或 参数 驱动 的 ETL 


一 些 ETL 在 代码 创建 的 基础 上 完成 ， 另 一 些 则 在 参数 驱动 程序 的 基础 上 完成 而 不 产 
生 专 用 代码 。 图 13-12 给 出 了 实现 ETL 的 不 同 选择 。 


13. 15 ETL 与 去 弃 


对 于 ETL 而 言 ， 如 何 处 理 丢 弃 的 数据 是 其 面 
对 的 主要 挑战 之 一 。 当 源 系统 记录 包含 不 正确 的 
值 时 会 发 生 什 么 ? 处 理 这 种 情况 有 许多 方法 ， 每 
种 方法 都 各 有 利弊 。 

第 一 种 方法 是 根本 不 允许 丢弃 的 数据 进入 数 图 13-12 ETL 可 使 用 从 零 开 始 创建 软件 
据 仓 库 。 尽 管 这 种 方法 维护 了 数据 仓库 中 的 原始 或 第 三 方 软件 或 两 者 的 结合 
数据 ， 但 它 同 时 也 将 那些 可 能 正确 且 有 用 的 数据 
阻挡 在 外 。 例 如 ， 假定 一 个 有 10 个 要 素 的 交易 ， 其 中 一 个 要 素 是 不 正确 的 ,那么 是 否 值 
得 将 其 他 9 个 正确 的 要 素 从 数据 仓库 中 排除 出 去 ? 

第 二 种 方法 是 为 那些 已 知 不 正确 的 数据 提供 默认 值 ， 这 种 方法 允许 所 有 的 其 他 附 随 的 
有 效 数 据 进 入 数据 仓库 。 一 个 重要 的 警告 是 ， 这 种 方法 可 能 会 在 做 数据 汇总 或 其 他 数据 
分 析 时 产生 非常 不 规则 或 不 可 靠 的 结果 。 

第 三 种 方法 是 将 无 效 数 据 放 人 数据 仓库 并 做 标记 。 这 样 分 析 员 就 会 知道 该 数据 是 无 
效 的 。 

第 四 种 方法 是 建立 一 个 丢弃 文件 。 只 要 丢弃 文件 能 够 被 自动 整理 ， 这 种 方法 就 不 失 为 
一 个 好 方法 ,但 是 如 果 丢 弃 记 录 需 要 手动 来 整理 ， 那 么 这 种 方法 就 不 好 了 ， 不 建议 使 用 。 

图 13-13 描述 了 丢弃 文件 的 建立 过 程 。 


13. 16 ”变化 数据 的 捕获 


变化 数据 的 捕获 (changed data capture，CDC) 是 输入 
到 DW2.0 交互 区 中 的 一 种 特殊 数据 ， 由 产生 交易 而 创建 了 
日 志 磁 带 时 得 到 CDC。 从 日 志 磁 带 中 捕 提交 易 活 动 比 在 文 
件 中 寻找 可 能 进行 的 活动 要 方便 得 多 ， 也 准确 得 多 。 

但 是 为 了 这 样 的 目的 去 使 用 日 志 磁 带 存在 一 些 问题 。 
第 一 个 问题 是 操作 往往 不 愿意 放弃 那些 等 于 是 它们 必要 的 ”图 13-13 丢弃 文件 需 送 慎 处 理 
基础 技术 的 东西 。 在 备份 和 恢复 过 程 中 需要 用 到 日 志 磁 带 ， 
如 果 操 作 舍 弃 这 些 磁 带 ， 将 会 有 灾难 性 的 后 果 。 

第 二 个 问题 是 创建 备份 是 志文 件 用 于 数据 恢复 ， 而 不 是 为 了 向 数据 仓库 中 输入 数据 。 
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日 志 磁 带 的 格式 最 好 是 保密 的 ， 并 应 非常 难于 破解 。 
图 13-14 给 出 一 个 作为 ETL 处 理 输入 的 日 志 磁 带 的 用 法 。 


13. 7. ET 


抽取 /装载 /转换 (extract/1oad/trans- 
form，ELT) 处 理 与 ETL 的 联系 相当 紧 
密 ， 却 又 不 完全 相同 。ETL 和 ELT 之 间 
的 差别 在 于 : 在 ETL 中 数据 经 过 抽取 、 
转换 后 骨 载 和 数据 仓库 中 ; 而 在 ELT 处 
理 中 ， 数 据 是 先 抽 取 、 载 人 数据 仓库 中 
后 冉 进 行 转换 。 换 句 话 说， 对 于 ELT， 数 
据 直 到 进入 到 数据 仓库 后 才 进 行 转换 。 图 13-14 对 于 变化 数据 的 捕获 来 说 日 志 有 时 很 有 用 
这 样 ，ELT 就 存在 一 些 基本 的 问题 。 

第 一 个 问题 是 数据 的 清理 。 完 全 有 可 能 在 抽取 并 装载 数据 之 后 忘记 做 转换 工作 ， 这 当 
然 是 不 能 接受 的 。 

在 数据 被 载 和 数据 仓库 后 做 数据 转换 时 ，ELT 方法 还 会 引起 数据 完整 性 问题 。 在 某 时 
刻 ， 某 些 数 据 单元 的 值 为 100， 而 在 另 一 时 刻 为 35 ， 这 样 数据 仓库 就 失去 其 可 信 性 了 。 也 
就 是 说 ， 使 用 ELT 的 数据 仓库 中 不 存在 数据 完整 性 。 

图 13-15 给 出 了 一 个 ELT 处 理 。 d 一- 

正 是 由 于 自身 固有 的 问题 ，ELT 处 理 并 不 是 一 个 “ 国 
好 的 构架 选择 。 图 13-15 ”ETL 的 另 一 形式 是 ELT 
13. 18 企业 用 户 的 观点 


ETL 是 DW2.0 的 一 部 分 ,企业 用 户 不 参与 其 中 。 在 DW2.0 的 其 他 大 部 分 方面 ， 企 业 
用 户 偶 尔 会 来 观察 。 在 大 多 数 其 他 情况 下 他 /她 知道 系统 内 部 发 生 了 什么 , 但 却 不 积极 
参与 。 

但 对 ETL 并 不 这 样 ， 由 于 数据 由 应 用 状态 转换 为 企业 状态 要 经 过 ETL 处 理 ， 所 以 企 
业 用 尸 有 必要 参与 ETL 处 理 。 很 多 情况 下 ， 只 有 企业 用 户 才 知道 如 何 正确 地 进行 转换 。 

需 指出 的 不 同 是 ,企业 用 户 拥有 最 终 的 批准 权 来 确定 如 何 进行 转换 工作 ， 因 此 ， 企 业 
用 户 需 要 积极 参与 转换 需求 的 创建 。 

通常 ， 企 业 用 户 并 不 实际 执行 ETL 过 程 ， 而 是 告诉 技术 员 应 当 如 何 进行 转换 。 

通常 ， 将 转换 规格 说 明 写 下 来 是 个 不 错 的 主意 ， 这 样 做 是 很 重要 的 。 万 一 转换 后 发 生 
问题 ， 这 一 办 法 对 于 检测 错误 发 生源 很 有 效 。 该 方法 在 另 一 种 情况 下 也 很 重要 ， 即 在 将 
规格 说 明 转 换 为 元 数据 时 。 

一 旦 将 规格 说 明 转 换 转变 成 元 数据 ， 它 们 将 被 提供 给 那些 想 要 看 到 遗留 数据 的 分 析 人 
员 。 这 个 数据 从 哪里 来 ， 是 什么 意思 ?” 有 了 能 够 反映 转换 过 程 的 元 数据 ， 回 答 这 样 的 
问题 束 变 得 很 容易 了 。 

因为 企业 用 户 了 解数 据 ， 所 以 他 们 被 视 为 转换 方面 的 权威 ， 常 称 其 为 数据 管理 员 。 理 
想 情 况 下 ，DW2.0 环境 中 的 每 个 数据 单元 都 有 且 仅 有 一 个 数据 管理 员 。 换 句 话说 ， 每 个 
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数据 单元 都 有 一 个 不 同 的 数据 管理 员 。 

数据 管理 过 程 是 一 个 持续 的 过 程 ， 虽然 DW2.0 环境 开始 时 就 拥有 数 摔 管理 员 是 很 重 
要 的 ， 但 应 当 认 识 到 ， 在 整个 DW2.0 生命 周期 中 数据 管理 员 也 是 不 可 或 缺 的 。 

数据 管理 员 不 负责 数据 库 的 日 常 维护 和 管理 。 如 果 数 据 库 装载 失败 ， 应 该 由 系统 管理 
员 来 完成 修复 错误 的 工作 。 相 反 ， 数 据 管理 员 负 责 数据 表 中 数据 的 日 常 维护 和 管理 。 例 
如 ， 如 果 一 个 人 的 年 龄 被 列 为 1000 岁 ， 那 么 除非 他 的 名 字 是 Methuselah ( 《圣经 . 创 世 
记 》 中 的 人 物 ， 据 传 享年 965 岁 ) ， 否 则 数据 管理 员 就 负责 修正 这 一 错误 ， 并 确定 该 错误 
是 如 何 进 入 数据 库 的 。 


13. 19 总 结 


ETL 是 用 于 转换 数据 状态 的 过 程 。 数 据 通 过 ETL 处 理 后 由 应 用 状态 转换 为 企业 状态 。 
ETL 处 理发 生 在 数据 进入 交互 区 时 ， 在 数据 由 交互 区 向 整合 区 过 渡 时 会 再 次 发 生 。 

ETL 可 以 以 在 线 模式 或 批 处 理 模 式 运 行 。 以 在 线 模式 运行 时 强调 的 是 数据 的 移动 ， 而 
以 批 处 理 模 式 运 行 时 强调 的 是 数据 的 转换 。 

数据 的 产生 地 被 称 作 源 ， 数 据 的 去 处 称 为 目标 ， 显 示 数 据 如 何 从 源 到 目标 的 逻辑 称 为 
映射 ， 全 部 数据 的 源 集合 称 为 记录 系统 。 

在 大 量 数据 需要 进入 目的 地 时 ，ETL 处 理 可 以 以 三 种 并 行 的 方式 运行 。 

ETL 的 一 个 副产品 是 用 于 描述 数据 移动 的 元 数据 ， 它 的 另 一 个 副产品 是 审核 记录 。 

除了 数据 转换 之 外 ，ETL 处 理 还 包含 了 简单 的 数据 质量 检查 。 

ETL 处 理 可 以 完全 自主 开发 实现 ， 也 可 利用 第 三 方 厂 商 提供 的 软件 来 实现 。 

有 时 ， 在 处 理由 多 项 交易 过 程 组 成 的 源 时 ， 日 志文 件 可 作为 ETL 处 理 的 输入 。 此 时 ， 
日 志文 件 常 被 称 作 变化 数据 的 捕获 〈CDC ) 。 


第 14 章 “DW2. 0 与 粒度 管理 器 


几乎 所 有 来 自 外 部 源 的 数据 都 是 通过 ETL 处 理 传递 到 交互 区 的 ， 虽然 偶 尔 也 直接 传 
递 到 整合 区 。 但 是 一 些 少见 的 情况 下 ， 我 们 也 需要 通过 另 一 种 方式 来 传递 来 自 外 部 环境 
的 数据 。 


14. 1 粒度 管理 器 


这 种 处 理 机 制 就 叫做 粒度 管理 器 。 粒 度 管理 器 所 做 的 工作 与 ETL 处 理 截然 不 同 。 
为 了 了 解 ETL 处 理 是 如 何 工 作 的 ,图 14-1 在 概念 层次 上 描述 了 一 个 普通 的 ETL 
处 理 。 





图 14-1 数据 的 正常 处 理 过 程 


图 14-1 代表 在 普通 ETL 处 理 中 对 象 域 对 不 同 种 类 数据 的 习惯 性 存储 。ETL 读 入 一 个 
源 记录 ， 然 后 将 该 记录 分 成 几 个 不 同 部 分 ， 根据 它们 所 依赖 的 对 象 域 的 不 同 ， 分 别 将 这 
几 部 分 发 送 到 不 同 的 目的 地 。 例 如 ， 假设 存在 一 笔 交 易 ， 它 产生 了 一 条 关于 销售 某 件 产 
操 的 记录 。 该 产品 的 销售 记录 作为 一 条 单独 的 记录 到 达 ETL 处 理 ， 然 而 这 条 记录 却 是 各 
种 不 同 数据 所 组 成 的 信息 集合 ， 例 如 收入 信息 、 产 品 信息 以 及 顾客 信息 等 。ETL 处 理 知 道 
需要 把 这 些 不 同类 型 的 信息 发 送 到 不 同 的 目的 地 。 于 是 产品 交易 信息 被 发 送 到 公司 ， 而 
面 问 对 象 的 数据 则 作为 源 数据 被 载 人 到 目的 数据 仓库 中 。 这 是 ETL 处 理 最 基本 也 是 最 重 
要 的 功能 之 一 。 


14. 2 ”提高 粒度 级 别 


数据 粒度 管理 与 ETL 处 理 是 截然 不 同 的 。 与 将 数据 从 单一 的 记录 拆 分 成 多 条 然后 送 
入 面 辣 对 和 象 的 数据 单元 不 同 ， 粒 度 管理 器 实际 上 是 一 个 合并 数据 的 过 程 。 合 并 或 统一 数 
据 的 需求 并 不 是 经 常 出 现 。 但 是 在 某 些 罕见 情况 下 ， 当 外 部 世界 的 源 数据 细节 程度 太 低 
时 ， 这 些 数据 就 必须 被 统一 。 在 使 用 因特网 时 产生 的 点 击 流 数据 就 是 一 个 需要 使 用 粒度 
管理 需 的 绝 好 例子 。 

当 网 站 处 理 行 为 被 追踪 时 ， 鼠 标的 每 次 移动 、 页 面 的 每 次 跳 转 以 及 每 次 进入 一 个 新 的 
链接 都 会 产生 一 条 点 击 流 记 录 。 这 些 发 生 在 网 站 被 追踪 时 的 活动 数据 的 细节 程度 被 降 到 
最 低 。 这 些 低 级 别 的 点 击 流 数据 往往 存在 很 大 的 问题 ， 绝 大 部 分 数据 都 没有 任何 商业 
价值 。 
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据 人 和 估计， 最 终 90% 的 点 击 流 数据 都 是 无 用 的 。 点 击 流 数 据 追 踊 的 特点 就 是 产生 以 及 
获得 了 大 量 无 用 数据 。 这 些 在 点 击 流 数 据 中 存在 的 无 用 数据 是 一 种 极 大 的 没有 任何 必要 
的 开销 。 

男 一 个 常见 的 由 于 粒度 太 低 而 需要 使 用 粒度 管理 器 的 例子 是 模拟 计算 机 收集 手工 数 
据 。 大 部 分 模拟 数据 都 是 可 有 可 无 的 ， 但 是 也 有 小 部 分 是 极其 重要 的 。 这 些 重要 数据 的 
粒度 非常 低 ， 但 是 又 必须 在 DW2.0 环境 下 使 用 ， 因 此 它 必须 在 使 用 粒度 管理 器 处 理 之 后 
才能 被 导入 。 


14. 3 过滤 数据 


图 14-2 说 明 大 量 的 数据 通过 一 个 类 似 点 击 流 的 处 理 机 制 进入 工作 流 ， 然 后 被 “过 
滤 ”、 聚 集 或 者 合并 。 


i 
-el 


国生 一 一 “2 区 上 
图 14-2 有 些 数据 对 于 数据 仓库 来 说 粒度 太 低 


当 在 DW2. 0 环境 下 有 多 个 地 方 需要 使 用 时 ， 就 可 以 放置 粒度 管理 器 。 图 14-3 说 明 当 
数据 进入 交互 区 时 粒度 管理 器 可 能 被 放置 的 位 置 之 一 。 

粒度 管理 右 可 能 被 放置 的 位 置 之 二 是 数据 直接 进入 整合 区 的 位 置 。 这 种 情况 发 生 在 数 
据 不 需要 在 进入 整合 区 之 前 在 交互 区 做 停留 。 图 14-4 描述 了 当 数 据 直接 进入 整合 区 时 粒 
度 管理 器 的 放置 位 置 。 












图 14-3 粒度 管理 器 放置 的 位 置 之 一 图 14-4 粒度 管理 器 放置 的 位 置 之 二 


还 有 一 个 位 置 粒度 管理 器 偶尔 会 使 用 ， 那 就 是 数据 被 传递 到 归档 环境 时 的 位 置 。 
图 14-5 描述 了 当 数 据 进入 归档 环境 时 粒度 管理 器 所 担任 的 角色 。 
当 数据 被 传递 到 归档 环境 时 使 用 粒度 管理 器 是 一 种 非常 少见 的 情况 。 只 有 在 整合 区 发 
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生 大 规模 的 交易 ， 并 且 这 些 交 易 的 细节 永远 不 需要 用 于 分 析 的 情况 下 ， 使 用 粒度 管理 天 
才 有 意义 。 
14.4 ”粒度 管理 器 的 功能 
粒度 管理 器 实现 的 功能 是 非常 直观 的 。 
它 至 少 能 实现 以 下 功能 : 
。 消除 不 必要 的 数据 : 那些 在 未 来 对 
公司 没有 任何 参考 价值 的 输入 记录 





将 被 丢弃 ， 这 些 数据 预计 占 了 总 输 or 


和 数据 的 90% 。 
。 合并 : 那些 对 公司 有 参考 价值 的 数 
据 可 以 经 党 进行 合并 ， 即 将 多 条 记 
录 合 并 为 一 条 单独 的 记录 。 
。 聚集 : 某 些 情况 下 将 不 同 种 类 的 数 
据 聚 集成 一 条 单独 的 记录 会 比 数据 
合并 更 有 意义 。 
。 改写 数据 : 当 数 据 被 改写 时 ， 它 会 
以 一 种 格式 和 结构 输入 而 以 另 一 种 
格式 和 结构 和 输出。 改写 那些 原本 粒 
度 很 低 的 数据 是 一 件 非 常常 见 的 事 。 
这 些 都 是 粒度 管理 器 所 完成 的 动作 。 
这 些 动作 的 直接 结果 就 是 极 大 地 压缩 了 数 
据 并 且 剔 除了 无 用 数据 。 图 14-6 说 明了 粒 
度 管理 器 的 功能 。 


14: 5 本 地 与 第 三 方 粒度 管理 器 的 比较 


数据 粒度 管理 器 可 以 由 第 三 方 的 软件 
供应 商 构造 ， 也 可 以 由 本 地 软件 构造 。 绝 
大 多 数 情 况 下 ， 我们 都 使 用 第 三 方 ETL 
软件 ,但 是 使 用 第 三 方 粒度 管理 软件 的 需 
求 却 不 是 那么 强烈 。 只 有 很 少 的 特性 是 粒 
度 管理 副 和 ETL 共有 的 。 面 向 顾客 的 处 
理 过 程 需要 经 常 使 用 粒度 管理 器 ， 因 此 ， 
很 少 用 本 地 软件 来 构造 粒度 管理 器 。 

图 14-7 说 明了 用 来 构造 粒度 管理 器 
的 本 地 与 第 三 方 选 项 。 


14.6 粒度 管理 器 的 并 行 化 图 14-7 ”构造 粒度 管理 器 的 两 种 基本 方法 


有 时 会 有 大 量 的 数据 需要 通过 数据 粒度 管理 器 来 处 理 ， 那 么 就 有 可 能 需要 通过 并 行 地 
运行 粒度 管理 软件 来 减轻 处 理 负担 。 通 过 并 行 地 运行 两 个 或 者 更 多 的 数据 粒度 管理 软件 





图 14-5 粒度 管理 器 放 置 的 位 置 之 三 
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实例 ， 处 理 数据 所 需 的 时 间 将 会 大 幅度 减少 。 
图 14-8 摘 述 了 并 行 运行 中 的 数据 粒度 管理 天 。 


14. 7 作为 副产品 的 元 数据 


除了 可 以 将 数据 压缩 到 一 个 合适 并 且 有 效 
的 大 小 外 ， 粒 度 管 理 还 能 够 被 用 来 生成 元 数 
据 。 图 14-9 描述 了 在 粒度 管理 中 作为 副产品 
生成 的 元 数据 。 

在 粒度 管理 中 作为 副产品 生成 的 元 数据 可 
能 包含 以 下 信息 : 





”哪些 数据 被 丢弃 于 。 图 14-8” 如 果 值得 可 以 并 行 地 运行 粒度 管理 器 
。 哪些 数据 被 合并 了 ， 合 并 后 的 记录 包 
含 哪 些 内 容 。 


。 哪些 数据 被 聚集 了 ， 聚 集 后 的 记录 包含 哪些 内 容 。 
。 数据 是 如 何 被 改写 的 ,改写 后 的 记录 包含 哪些 内 容 。 
元 数据 汇总 了 粒度 管理 的 处 理 结果 。 





图 14:9 在 粒度 管理 中 作为 副产品 生成 元 数据 是 非常 有 效 的 


14. 8 企业 用 户 眼中 的 粒度 管理 器 


对 于 企业 用 户 来 说 ， 粒 度 管理 器 与 终端 用 户 之 间 的 联系 并 不 大 。 唯 一 的 联系 存在 于 粒 
度 管理 器 生成 的 转换 规范 。 

终端 用 户 在 转换 规范 这 个 任务 上 与 粒度 管理 器 承担 相同 的 责任 ， 而 企业 用 户 则 负责 
ETL 规范 。 


14.9 总 结 


有 时 外 部 的 数据 对 于 DW2. 0 环境 来 说 粒度 太 低 ， 这 时 就 需要 在 数据 被 载 和 人 数据 仓库 
之 前 对 它 使 用 粒度 管理 器 ， 从 而 提高 数据 的 粒度 级 。 

当 数 据 进 入 DW2. 0 环境 或 者 在 DW2. 0 的 各 区 之 间 传 递 时 ， 粒 度 管理 器 就 负责 对 数据 
进行 过 滤 、 人 合并、 聚集 或 者 重 构 。 

数据 粒度 管理 器 能 够 并 行 地 运行 。 它 可 以 由 本 地 软件 构造 ， 也 可 以 通过 第 三 方 软件 供 
应 商 构造 。 

元 数据 是 粒度 管理 过 程 中 产生 的 副产品 。 


第 15 音 DW2. 0 和 性 能 


一 个 信息 系统 没有 表现 出 足够 好 的 性 能 是 一 件 令 人 很 厌恶 的 事情 。 大 部 分 人 都 讨厌 等 
待 ， 特 别 是 当 这 种 等 待 完全 没有 必要 而 且 训 无 收益 时 。 在 DW2.0 环境 下 人 们 对 竺 等 竺 的 
态度 也 是 这 样 的 。 

一 个 信息 系统 不 能 提供 很 好 的 性 能 就 可 以 认为 它 是 低 效 的 。 如 果 性 能 十 分 不 好 ， 那 它 
台 是 这 无 作用 的 了 。 一 般 认 为 好 的 性 能 表现 是 好 的 信息 系统 的 一 个 特点 。 

但 是 好 的 性 能 并 不 像 一 个 新 功能 那样 可 以 被 很 容易 地 添加 到 系统 中 。 好 的 性 能 包含 了 
许多 方面 ， 应 该 从 整体 上 进行 设计 并 且 从 一 开始 就 加 入 系统 中 。 


15.1 好 的 性 能 一 一 DW2. 0 的 基石 


好 的 性 能 对 于 一 个 有 效 的 DW2. 0 数据 仓库 是 至 关 重要 的 ， 并 且 在 整个 DW2.0 环境 中 
都 很 有 必要 。 

对 于 DW2. 0 来 说 ， 有 很 多 种 适用 的 性 能 。 在 交互 区 有 在 线 响应 性 能 或 者 OLTP (on- 
line transaction processing， 在 线 事务 处 理 ) 性 能 ，OLTP 是 以 秒 来 度量 的 。 在 整合 区 有 分 析 
性 能 。 对 于 不 同 的 分 析 活 动 ， 啊 应 时 间 可 能 以 秒 或 者 分 钟 来 度量 。 而 在 归档 区 ， 响 应 时 
则 则 是 以 天 来 度量 的 。 响 应 时 间 是 相对 的 。 响 应 时 间 的 度量 单位 和 期 望 值 随 着 任务 的 内 
容 和 地 点 的 不 同 而 不 同 。 但 是 在 整个 DW2.0 环境 下 响应 时 间 都 是 很 重要 的 。 


15. 2 “在线 响应 时 间 


在 线 啊 应 时 间 正 篆 的 期 望 值 是 2 ~3 秒 。 在 线 响应 时 间 又 经 常 被 称 为 实时 响应 时 间 ， 
它 是 在 交互 区 中 完成 的 。 

图 15-1 摘 绘 了 在 线 啊 应 时 间 。 

在 线 啊 应 时 间 是 这 样 衡量 的 : 从 用 户 
按 下 回 计算 机 发 送 事 务 的 键 开始 到 返回 用 
户 的 第 一 个 响应 之 间 的 时 间 。 从 事务 的 键 
入 到 第 一 个 响应 的 返回 之 间 发 生 了 许多 处 
理 过 程 。 事 务 被 传输 到 网 络 上 ， 然 后 网 络 
将 事务 传输 至 系统 。 在 通过 安全 协议 后 ， \ 
事务 进入 到 一 个 队列 中 。 这 个 事务 会 在 队 图 15-1 事务 响应 时 间 一 2 ~3 秒 
列 中 等 待 ， 直 到 执行 该 事务 所 需 的 系统 资 
源 都 可 用 。 事 务 进 入 计算 机 中 用 于 处 理事 务 的 应 用 部 分 。 计 算 机 中 的 代码 被 执行 ， 对 于 
数据 库 的 调用 也 通过 DBMS 完成 了 。 数 据 库 收 集 数 据 ， 这 些 数据 被 返回 到 计算 机 的 应 用 
部 分 。 计 算 机 的 应 用 部 分 运用 事务 执行 逻辑 操作 ， 做 出 决策 ， 并 可 能 向 数据 库 中 写 更 多 
的 数据 。 最 后 ， 事 务 被 执行 完成 ， 离 开 应 用 部 分 ， 最 终 的 结果 则 通过 网 络 被 传 回 最 初 发 
起 事务 的 用 户 。 为 了 达到 好 的 响应 时 间 方 面 的 性 能 表现 ， 所 有 这 些 活动 必须 在 几 秒 之 内 
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完成 。 
影响 事务 性 能 的 因素 包括 : 
。 元 长 的 活动 ， 比 如 网 络 传输 。 
。 数据 库 的 输入 和 输出 。 
。 在 队列 或 其 他 地 方 的 等 待 。 
。 事务 本 身 的 大 的 任务 量 。 


15.3 分 析 响 应 时 间 


DW2. 0 环境 的 男 一 个 性 能 考虑 被 称 为 分 析 性 能 的 度量 。 分 析 性 能 问题 涉及 整合 区 、 
归档 区 ,偶尔 也 和 近 线 区 相关 。 

分 析 响 应 时 间 的 期 望 值 一 般 在 10 秒 至 1 小 时 之 间 。 假 设 对 分 析 型 处 理 给 出 了 大 量 时 
间 用 于 性 能 度量 ， 则 通常 认为 分 析 环 境 下 的 性 能 是 很 容易 实现 的 。 但 根本 就 不 是 这 么 
回 事 。 

分 析 环 境 和 事务 处 理 环境 是 非常 不 同 的 。 在 分 析 环 境 中 : 

。 做 出 的 决策 的 战略 性 要 强 于 战术 性 。 

。 分 析 型 处 理 所 需 的 数据 量 要 远 多 于 事务 型 处 理 所 需 的 数据 量 。 

。 在 整 天 中 可 预知 的 数据 流动 相对 更 少 。 

存在 于 分 析 环 境 和 事务 处 理 环境 之 间 的 这 些 根 本 的 区 别 ， 使 得 可 以 采用 更 加 随意 的 方 
法 进行 分 析 响 应 时 间 的 性 能 度量 。 


15.4 数据 的 流动 


整个 系统 中 的 数据 流 大 体 和 事务 处 理 中 所 描述 的 相同 。 这 两 种 数据 流 关键 的 不 同 在 于 
以 下 两 个 地 方 : 
。 分 析 型 处 理 所 需 的 数据 量 要 显著 多 于 事务 型 处 理 所 需 的 数据 量 。 收 集 大 量 的 数据 
用 于 分 析 需 要 大 量 的 数据 输入 /输出 操作 ， 而 这 样 的 输入 /输出 操作 会 明显 减 慢 计 
算 机 的 速度 ， 因 为 输入 /输出 操作 是 机 械 级 的 速度 ， 而 不 像 其 他 计算 机 内 部 操作 那 
样 是 电子 级 的 速度 。 
。 分 析 型 事务 的 排队 等 待 时 间 取 决 于 在 队列 中 等 待 被 执行 的 其 他 分 析 活 动 。 对 于 分 
析 活 动 ， 在 队列 中 的 时 间 是 不 可 预知 的 ， 并 且 可 能 很 长 。 
因此 ， 对 于 分 析 活 动 ， 响 应 时 间 一 般 比 较 长 并 且 不 可 预知 。 
图 15-2 就 说 明了 针对 数据 的 正在 进行 的 分 析 活 动 。 
有 关 性 能 的 任何 讨论 都 需要 说 明 差 的 性 能 的 
影响 。 对 于 事务 型 处 理 和 分 析 型 处 理 ， 差 的 性 能 
所 导致 的 影响 是 非常 不 同 的 。 


15.5 队列 


当 事 务 型 处 理 的 性 能 变 差 时 ， 将 会 在 公司 与 
客户 交互 的 地 方 对 公司 的 业务 产生 影响 ， 如 队列 
等待 。 设 想 一 家 银行 柜台 或 航空 公司 登 机 口 ， 在 “图 15-2 分 析 响应 时 间 一 一 15 秒 到 24 小 时 
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正常 操作 的 情况 下 ， 当 顾客 到 达 银 行 或 机 场 时 ， 只 有 很 少 人 等 在 他 的 前 面 。 在 情况 好 的 
时 候 ， 也 许 只 有 两 三 个 人 在 他 的 前 面 ， 但 在 情况 不 好 的 时 候 ， 可 能 会 有 20 多 个 人 在 他 的 
前 面 。 这 样 来 看 ， 顾 客 在 队列 中 向 前 移动 以 及 接受 服务 的 速度 就 是 等 竺 队列 的 长 度 以 及 
他 所 在 位 置 的 函数 。 

为 了 实现 平稳 运行 ， 银 行 的 营业 员 以 及 航空 公司 的 服务 人 员 在 处 理 顾客 业务 的 时 候 必 
须 有 令 人 满意 的 响应 时 间 。 响 应 时 间 必 须 是 及 时 的 、 一 致 的 。 当 处 理 响 应 时 间 比 较 短 时 ， 
营业 员 可 以 在 较 短 时 间 内 服务 每 一 位 顾客 ， 顾 客 等 待 队列 也 会 以 一 个 稳定 合理 的 速率 
前 进 。 

但 是 还 要 考虑 在 银行 的 营业 员 以 及 航空 公司 的 服务 人 员 并 没有 达到 很 好 的 响应 时 间 的 
情况 下 ， 将 会 发 生 什么 。 接 待 每 一 位 客户 都 需要 很 长 的 时 间 ， 这 对 于 正在 接受 服务 人 员 
服务 的 顾客 来 说 是 比较 糟糕 的 ， 对 于 处 于 等 待 队 列 中 的 顾客 来 说 更 加 糟糕 。 队 列 会 不 断 
加 长 ， 直 到 人 数 多 得 不 能 接受 。 

因此 真正 对 事务 响应 时 间 产 生 消 极 影响 的 不 是 已 给 事务 的 执行 ， 而 是 等 待 队 列 中 等 待 
执行 的 事务 的 积累 效应 。 事 务 处 理性 能 较 差 以 及 长 时 间 的 队列 等 待 时 间 所 带 来 的 最 坏 的 
问题 就 是 这 种 影响 已 经 被 公司 的 用 户 直 接 感知 到 。 

图 15-3 说 明了 当 基 本 的 事务 型 处 理 出 现 问 
题 时 ， 会 形成 一 个 令 人 无 法 忍受 的 长 队列 。 

在 分 析 型 环境 中 ， 低 下 的 性 能 表现 同样 也 
会 产生 消极 影响 ， 它 会 影响 分 析 者 为 管理 层 准 
备 信息 的 效率 。 


15.6 局 发 式 处 理 


较 差 的 性 能 表现 对 于 分 析 团 体 的 消极 影响 
和 分 析 型 处 理 的 实现 方式 有 关 。 图 15-4 描述 了 
分 析 型 处 理 的 启发 式 特性 。 

当 启 发 式 地 完成 处 理 时 ， 对 于 分 析 活 动 就 
几乎 没有 什么 计划 安排 。 这 是 因为 ， 在 启发 式 

图 15-3 ” 当 在 线 事务 响应 时 间 表现 较 差 时 将 

分 析 中 每 个 步骤 都 需要 完全 依靠 上 一 步骤 的 完 Pep de pr Me a 
成 效果 。 








图 15-4 分 析 型 处 理 的 精髓 就 是 启发 式 处 理 


设想 一 个 组 织 开始 进行 启发 式 分 析 。 得 到 第 一 个 步骤 的 结果 并 加 以 分 析 ， 只 有 这 时 才 
清楚 下 一 步 分 析 需 要 干什么 。 然 后 完成 分 析 的 第 二 个 步骤 并 得 到 更 多 的 结果 ， 这 时 分 析 
两 步 的 结果 ， 第 三 步 的 分 析 所 需要 的 活动 也 就 清晰 了 。 这 个 过 程 一 直 持续 直至 达到 最 终 
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的 结果 。 
事实 上 ， 在 局 发 式 处 理 时 ， 分 析 过 程 中 是 没有 组 织 、 没 有 计划 路 径 的 。 


15.7 分 析 的 生产 率 和 响应 时 间 


局 发 式 分 析 完 成 的 速率 完全 取决 于 分 析 型 处 理 完成 的 快慢 。 也 就 是 说 ， 分 析 型 处 理 完 
成 得 越 快 ， 就 能 越 快 地 得 到 最 终结 果 。 
图 15-5 对 比 了 两 个 分 析 者 的 性 能 表现 。 





30 分 钟 的 周转 时 间 








分 析 者 A 





分 析 者 B 6 小 时 的 周转 时 间 
图 15-5 考虑 两 个 分 析 者 只 在 分 析 周转 时 间 上 不 同 的 生产 率 


在 图 15-5 中 ， 两 个 分 析 者 唯一 的 不 同 就 是 其 分 析 活动 完成 的 速率 。 分 析 者 A 可 以 在 
30 分 钟 内 完成 一 个 启发 式 分 析 ， 而 分 析 者 B 则 需要 6 个 小 时 完成 一 个 启发 式 分 析 。 

事务 型 处 理 和 分 析 型 处 理 在 差 的 性 能 表现 方面 还 有 一 个 大 的 不 同 。 在 事务 型 处 理 中 ， 
老 的 结 采 可 以 被 公司 的 顾客 直接 感受 到 。 而 差 的 分 析 型 处 理 效果 是 在 公司 内 部 被 分 析 人 
员 感 受到 。 对 于 公司 而 言 ， 差 的 事务 型 响应 时 间 在 短期 看 来 更 具有 破坏 性 。 

可 以 从 很 多 方面 人 手 来 达到 好 的 性 能 表现 ， 因 此 对 其 需要 一 个 整体 的 方法 。 性 能 必须 
同时 在 多 个 方面 提升 。 下 面 就 介绍 在 DW2. 0 环境 下 为 了 达到 长 期 的 良好 性 能 需要 做 的 一 
些 十 作 。 


15.8 索引 


针对 数据 仓库 性 能 的 一 个 最 简单 的 设计 方法 就 是 创建 数据 索引 。 如 果 创 建 了 索引 ， 系 
统 就 不 用 为 了 定位 和 获取 所 需 信 息 而 对 所 有 数据 进行 顺序 查找 。 

图 15-6 描绘 了 数据 的 索引 。 

图 15-6 的 上 部 显示 了 一 个 没有 索引 的 数据 库 。 当 一 个 人 访问 该 数据 库 时 ， 为 了 查找 
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某 个 记录 他 要 搜索 整个 数据 库 。 

图 15-6 的 下 部 显示 了 一 个 建立 了 索引 的 数据 库 。 当 一 个 人 在 数据 库 中 查询 茶 些 数据 
记录 时 ， 会 首先 查阅 索引 。 如 果 在 索引 中 可 以 直接 找到 对 应 的 数据 信息 ， 就 可 以 直接 访 
问 它 ， 这 样 就 极 大 地 减少 了 数据 访问 时 间 。 

似乎 为 数据 库 中 的 所 有 数据 都 建立 索引 
是 一 件 好 事 。 但 是 ， 索 引 数据 也 是 有 代价 
的 。 索 引 需要 空间 ， 并 且 如 果 数 据 库 中 的 数 
据 在 不 断 更 新 ， 索 引 也 需要 相应 地 调整 。 当 
发 生 在 线 事务 时 ， 调 整 索 引 的 开销 就 会 变 得 
非常 大 。 

因此 应 该 有 一 个 折 中 。 虽 然 在 访问 数据 
时 利用 索引 可 以 节省 大 量 的 时 间 ， 但 是 索引 
的 创建 和 维护 也 带 来 了 附加 的 处 理 和 数据 存 
储 开 销 。 


15.9 移 除 休 虐 数据 


提高 数据 仓库 性 能 的 第 二 个 好 方法 就 是 移 除 休眠 数据 。 休 眠 数据 是 指 那些 不 再 被 访问 
或 访问 概率 很 低 的 数据 ， 它 由 于 妨碍 整个 系统 的 运行 而 严重 地 影响 了 系统 性 能 。 它 就 像 
人 身体 中 的 胆固醇 。 胆 固 醇 含量 越 高 ， 心 脏 为 了 维持 正常 的 身体 机 能 而 搏动 得 就 越 强烈 。 
胆固醇 含量 越 少 ， 循 环 系统 的 工作 也 就 越 有 效率 。 

每 个 计算 机 系统 都 有 一 定量 的 休眠 数据 。 只 有 在 存在 非常 大 量 的 休眠 数据 时 ， 系 统 的 
性 能 才 会 受到 损坏 。 

图 15-7 描述 了 两 个 数据 库 。 上 面 的 数据 库 
包含 了 大 量 的 休眠 数据 ， 下 面 的 数据 库 则 只 含 
有 极 少 量 的 休眠 数据 。 因 此 ， 访 问 下 面 的 数据 
库 要 比 访问 上 面 的 含有 大 量 休眠 数据 的 数据 库 
要 高 效 得 多 。 

这 样 说 来 ， 把 休眠 数据 从 数据 库 环境 中 移 
除 就 是 一 个 很 好 的 手段 。 虽 然 移 除 休 眼 数据 对 
交互 区 已 经 是 可 行 的 了 ,但 与 整合 区 更 是 非常 





图 15-6 在 有 索引 和 没有 索引 的 情况 下 寻找 数据 


相关 。 0 
图 15-7 访问 没有 休眠 数据 的 数据 库 要 比 访 
15. 10 ”终端 用 户 培 训 - 问 有 休眠 数据 的 数据 库 有 效 得 多 


在 提高 性 能 上 还 有 男 一 个 简单 的 想法 也 能 产生 很 好 的 结果 。 这 个 想法 就 是 在 允许 终端 
用 户 使 用 数据 仓库 之 前 对 他 们 进行 培训 。 在 终端 用 户 培训 上 有 两 个 方面 需要 强调 : 

。 数据 仓库 中 有 什么 数据 ， 这 些 数据 的 结构 和 格式 又 是 怎样 的 ? 

。 怎样 创建 高 效 的 数据 查询 ? 

少量 的 用 户 培 训 对 保证 数据 仓库 的 高 效 使 用 和 处 理性 能 是 有 很 大 帮助 的 。 

终端 用 户 培训 在 整个 DW2. 0 环境 下 都 是 适用 的 ， 尤 其 是 在 整合 区 和 归档 区 。 
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15. 11 监控 环境 


在 整个 DW2. 0 环境 下 实现 较 好 性 能 的 另 一 项 技术 是 监控 环境 。 令 人 惊异 的 是 ， 很 多 
人 都 没有 对 重要 的 数据 库 和 技术 基础 设施 进行 监控 。 当 问题 发 生 时 ， 性 能 监控 是 一 个 极 
好 的 用 于 检测 和 诊断 间 题 的 工具 。 而 当 问 题 不 
能 诊断 时 ， 必 要 的 补救 措施 也 只 是 猜测 。 

与 DW2.0 环境 相关 的 有 两 种 监控 交互 
区 的 事务 监控 和 整合 区 的 数据 仓库 监控 。 

事务 监控 监测 事务 处 理 的 速度 、 事 务 处 理 。 
中 所 用 的 资源 和 事务 在 等 待 队列 中 的 等 待 时 
间 。 数 据 仓库 监控 查看 休眠 数据 及 用 户 正在 访 
问 的 数据 。 图 15-8 描述 了 数据 仓库 活动 和 数 
据 的 监控 。 


15. 12 容量 规划 


容量 规划 问题 很 自然 地 伴随 着 事务 性 能 和 数据 使 用 的 监控 而 出 现 。 容 量规 划 的 目的 是 
主动 预测 可 能 出 现 系统 性 能 变 差 的 时 间 ， 这 样 就 可 以 在 其 发 生 之 前 便 采取 补救 措施 。 

如 朵 没有 容量 规划 ， 直 到 容量 消耗 完 前 系统 性 能 可 能 会 一 直 很 好 。 然 而 一 旦 消耗 完 容 
量 ， 由 于 获得 新 设备 以 及 技术 升级 不 可 能 很 快 完成 ， 因 此 性 能 变 差 以 致 整个 组 织 都 要 遭 
受 损 失 ， 直 到 获取 并 实现 了 更 大 的 容量 。 因 此 ， 在 消耗 完 数据 仓 库 的 容量 之 前 ， 主 动 进 
行 容量 规划 会 使 组 织 获得 最 佳 的 利益 。 

虽然 容量 规划 在 整个 DW2. 0 环境 下 都 很 重要 ， 但 与 交互 区 尤为 相关 。 图 15-9 解释 了 
数据 仓库 性 能 监控 是 如 何 对 主动 的 容量 规划 提供 特别 有 用 的 预测 信息 的 。 






| 数据 仓库 监控 


图 15-8 环境 监控 是 提高 性 能 的 一 种 重要 方法 





1 月 2 月 3 为 4 月 5 月 6 月 7 月 8 月 9 月 “10 月 11 月 了 2 月 


请 时 时 响应 时 间 
本 时时 每 小 时 内 的 事务 


图 15-9 容量 规划 使 组 织 在 表现 其 性 能 时 处 于 一 种 前 脆性 的 状态 


容量 规划 总 会 引出 硬件 和 软件 升级 的 问题 ， 例 如 ， 经 常会 出 现 运行 在 DW2.0 环境 下 
的 东 一 部 分 硬件 或 软件 容量 超过 限度 的 问题 。 在 这 种 情况 下 ， 需 要 补充 更 多 新 的 资源 到 
这 个 环境 中 来 。 数 据 仓 库 硬 件 容量 升级 涉及 硬件 环境 下 许多 方面 的 升级 ， 比 如 : 

。 更 大 的 主 存 
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。 更 大 的 缓存 

。 更 快 的 内 部 速度 

。 存储 管理 的 并 行 化 

。 人 额外 的 数据 存储 : 

在 硬件 升级 的 同时 ， 数 据 仓库 容量 的 增加 还 涉及 软件 的 升级 。 软 件 升级 的 一 些 典型 特 
征 包括 : 

。 更 新 、 更 快 的 操作 系统 的 支持 

。 并 行 软件 的 支持 

。 最 新 版 本 的 软件 新 特征 的 支持 

同时 升级 硬件 和 软件 可 以 提高 系统 的 性 能 ， 有 足够 多 的 理由 可 以 说 明 这 一 点 。 保 持 硬 
件 和 软件 处 于 最 新 版 本 和 DW2. 0 的 每 个 部 分 都 是 相关 的 。 系统 升级 是 维持 数据 仓库 优良 
性 能 的 策略 的 一 个 常规 部 分 。 


15. 13 元 数据 ， 


一 个 可 靠 的 元 数据 基础 结构 是 好 的 数据 仓库 性 能 的 一 个 必 不 可 少 的 组 成 部 分 。 元 数据 
基础 结构 描述 了 数据 在 DW2. 0 环境 中 驻 留 的 位 置 。 
图 15-10 描述 了 DW2. 0 环境 下 的 元 数据 。 

元 数据 和 性 能 之 间 也 许 并 没有 明显 的 
关系 ， 但 事实 上 元 数据 和 系统 性 能 有 着 实 
际 且 积极 的 联系 。 元 数据 是 可 重用 性 的 关 
键 。 如 果 没 有 可 重用 性 ， 每 当 出 现 一 个 困 全 
难 或 问题 时 ， 一 切 都 必须 从 头 做 起 。 而 有 ER 
.了 可 重用 性 ， 当 一 个 组 织 已 经 产生 一 个 结 图 15-10 元 数据 基础 结构 对 于 系统 性 能 是 很 重要 的 
果 或 完成 一 个 分 析 时 ， 就 可 以 重用 这 个 结 
果 或 分 析 而 不 用 再 重新 计算 或 开发 它 。 在 对 提升 性 能 所 起 的 作用 方面 ， 绝 对 没有 任何 事 
情 可 以 比 得 上 不 用 再 重新 去 做 绝 大 部 分 的 工作 。 如 果 因 为 已 经 完成 过 一 次 主要 的 分 析 任 
务 而 不 用 再 去 做 它 ， 那 就 可 以 节省 数据 仓库 大 量 的 资源 。 I 

对 现存 分 析 的 重用 可 以 应 用 于 整个 DW2.0 环境 ， 但 主要 是 应 用 于 整合 区 和 归档 区 。 


15. 14 ” 批 处 理 的 并 行 


处 理 过 程 的 并 行 化 是 一 个 真正 提高 性 能 的 好 方法 。 假 设 运行 一 个 作业 需要 12 小 时 。 
如 果 用 两 台电 脑 去 完成 这 项 处 理 ， 则 只 需要 6 小时。 如果 用 3 台电 脑 去 完成 这 项 处 理 ， 则 
只 需要 4 小时。 

并 行 处 理 一 个 作业 会 减少 完成 该 作业 所 需 的 时 间 ， 这 种 减少 与 处 理 器 的 数量 成 比 
例 。 如 果 用 两 个 处 理 器 ， 所 需 时 间 会 是 原来 时 间 的 1/2。 如 果 用 10 个 处 理 器 ， 则 时 间 
驶 会 降低 到 原来 的 1/10。 如 果 作 业 可 以 被 分 配 到 到 个 处 理 器 ， 则 所 用 的 最 大 时 间 就 会 
是 原来 的 1/n。 

必须 注意 到 ， 虽 然 许 多 作业 是 可 以 被 并 行 处 理 的 ， 但 还 有 些 作 业 是 不 能 够 被 并 行 处 
理 的 。 





DW2.0 和 性 能 eR 


作业 的 并 行 化 作为 提高 性 能 的 一 种 方法 被 应 用 到 整个 DW2.0 环境 。 图 15-11 描述 了 
在 DW2. 0 环境 下 ， 并 行 减少 了 处 理 所 消 耗 
的 时 间 。 

在 图 15-11 中 ， 并 行 应 用 于 多 个 没有 关 
联 的 机 器 上 。 这 当然 是 实现 高 吞吐 率 的 一 种 
方法 ， 但 还 存在 其 他 也 同样 很 有 用 的 并 行 化 
形式 。 





15. 15 事务 处 理 的 并 行 图 15-11 ” 批 处 理 作业 流 的 并 行 可 以 减少 消耗 时 间 


事务 处 理 的 并 行 工作 并 不 是 只 针对 作业 的 处 理 。 当 事务 处 理 中 发 生 并 行 时 ,事务 被 合 
并 并 且 集 中 管理 ,但 是 数据 和 用 来 操作 处 理 的 处 理 能 力 是 分 开 管 理 的。 管理 这 种 类 型 处 
理 的 操作 系统 被 称 为 “无 共享 环境 ”。 在 这 种 无 共享 环境 下 ， 每 个 处 理 器 拥有 并 且 管 理 属 
于 目 己 的 数据 ， 每 个 事务 被 完全 和 其 他 事务 的 执行 
区 分 开 来 ， 这 样 就 产生 了 极 高 的 春 吐 率 。 这 种 形式 
的 并 行 按 惯例 一 般 出 现在 DW2.0 中 的 交互 区 。 图 
15-12 就 是 一 个 无 共享 的 事务 处 理 环境 示意 图 。 图 15-12 存储 管理 的 并 行 是 另 一 种 方式 


15. 16 工作 负荷 量 的 管理 


系统 要 达到 一 个 较 好 和 敏捷 的 性 能 ， 通 过 系统 的 工作 负荷 量 是 一 个 很 重要 的 因素 。 为 
本 理解 性 能 和 系统 承受 的 工作 负荷 量 之 间 的 关系 ,我 们 可 以 考虑 一 条 道路 和 其 上 运行 的 
车 辆 之 间 的 关系 。 现 在 考虑 一 个 问题 : 一 辆 保时捷 在 道路 上 能 够 跑 多 快 呢 7 除了 极 少数 
例外 ， 答 案 并 不 是 每 小 时 185 英里 。 保 时 捷 只 能 以 它 前 面 的 运输 工具 的 速度 行进 。 如 果 是 
在 举 西 哥 城 并 且 是 高 峰 时 间 ， 保 时 捷 就 只 能 以 每 小 时 2 英里 的 速度 前 进 。 如 果 是 在 德国 高 
速 汽车 专用 公路 ， 那么 保时捷 的 速度 就 可 能 达到 每 小 时 185 英里 。 但 是 ， 如 果 交 通 堵塞 并 
且 路 上 有 大 量 半 拖 车 ， 那 么 各 种 类 型 的 车 辆 所 能 达到 的 速度 都 不 会 很 高 。 

事务 处 理 流 也 是 这 样 工 作 的 。 事 务 的 类 型 、 事 务 的 大 小 、 共 享 相同 处 理 程序 的 事务 数 
量 ， 都 对 整个 数据 仓库 所 能 达到 的 速度 有 直接 的 影响 。 

交互 区 只 允许 执行 少量 的 事务 ， 这 也 就 意味 着 更 快 的 执行 速度 。 而 整合 区 允许 不 同 大 
小 的 事务 混合 在 一 起 执行 ， 也 就 是 说 对 于 整合 区 ， 一 般 期 望 得 到 一 个 综合 响应 时 间 。 在 
归档 区 中 ， 事 务 一 般 都 很 大 ， 因 此 归档 环境 下 的 响应 时 间 性 能 一 般 都 较 差 。 

图 15-13 说 明了 工作 负荷 量 的 构成 
和 啊 应 时 间 的 关系 。 

从 战略 的 角度 来 看 ， 数 据 朝 向 数据 
集 市 移动 能 够 极 大 地 提高 数据 仓库 的 
性 能 。 


15. 17 ”数据 集 市 > 国 国 一 mm 
混合 类 型 的 工作 负荷 稳定 的 、 不 一 致 的 、 差 的 性 能 
弘扬 集 市 是 用 于 满足 一 组 用 户 的 分 ，， 图 45319， 当 要 送 到 一 致 的 好 的 性 能 时 工作 负荷 


析 需 求 的 数据 集合 。 一 般 情况 下 ， 数 据 量 的 构成 是 一 个 大 的 因素 
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集 市 是 依据 不 同 的 组 织 而 建立 起 来 的 例如， 金融、 销售 和 市 场 数据 集 市 。 数 据 集 市 经 
常 被 设计 用 来 服务 于 一 群 没有 联系 的 人 ， 但 他 们 基本 上 都 使 用 相同 的 方法 查看 数据 。 

通过 创建 一 个 数据 集 市 ， 分 析 处 理 就 可 以 从 一 个 环境 转移 到 下 一 个 环境 。 换 句 话说 ， 
当 一 个 数据 集 市 被 创建 后 ， 针 对 于 DW2.0 环境 的 处 理 的 数量 就 会 减少 ， 其 中 一 些 处 理 就 
会 转移 到 数据 集 市 中 。 ; 

数据 集 市 的 创建 提供 了 做 一 些 其 他 的 对 于 数据 仓库 性 能 十 分 有 益 的 事情 的 机 会 。 把 数 
据 集 市 中 的 处 理 转移 到 几 个 物理 上 相互 分 离 的 处 理 器 可 以 显著 减少 公司 数据 仓库 中 处 理 
的 成 本 。 给 定 DW2. 0 环境 下 需要 进行 的 处 理 数量 ， 用 于 支持 这 些 处 理 的 处 理 器 可 能 是 十 
分 昂贵 的 。 把 分 析 循 环 移出 DW2.0 企业 数据 仓库 环境 可 以 减少 处 理 成 本 ， 因 为 相 比 起 来 
数据 集 市 通常 需要 少 得 多 的 硬件 支持 。 因 此 ， 除 了 提高 DW2.0 的 性 能 外 ， 这 也 是 一 个 很 
强 的 建立 数据 集 市 的 动机 。 


数据 集 市 几乎 仅 应 用 于 DW2.0 的 整合 区 。 图 15-14 将 数据 集 市 的 创建 描述 为 一 种 提 
高 性 能 的 方法 。 





图 15-14 将 数据 移动 到 数据 集 市 是 增强 性 能 的 另 一 个 好 方法 
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15. 18 -探索 工具 


探索 工具 以 和 数据 集 市 非常 相似 的 方式 来 提高 DW2.0 的 性 能 。 图 15-15 描述 了 探索 
工具 的 创建 可 以 提高 DW2.0 企业 数据 仓库 环境 的 性 能 。 





图 15-15 将 数据 移动 到 探索 工具 是 增强 性 能 的 另 一 个 好 方法 


15. 19 ”将 事务 分 为 不 同 的 类 


将 事务 分 为 不 同 的 类 是 提高 数据 仓库 性 能 的 另 一 种 好 方法 。 图 15-16 显示 了 将 事务 分 
成 两 类 。 


关于 事务 分 类 技术 的 一 个 有 趣 的 问题 是 : 一 个 组 织 如 何 决定 一 个 事务 将 会 是 快 还 是 
慢 ? 通常 ， 事务 要 访问 的 数据 越 多 ， 速 度 就 会 越 慢 。 如 果 事 务 将 访问 整个 数据 库 ， 那 么 
速度 将 会 很 慢 。 而 如 果 事 务 只 访问 一 部 分 数据 ， 那 么 将 会 在 较 短 时 间 内 完成 。 


15.20 服务 标准 协议 
一 旦 事务 的 执行 速度 被 确定 后 ,管理 该 事务 执行 的 一 种 方法 就 是 创建 所 谓 的 “服务 
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标准 协议 ” (service level agreement，SLA ) 。 

SLA 是 对 于 服务 的 所 期 待 标准 的 一 种 声明 。 一 般 
情况 下 ，SLA 是 针对 事务 响应 时 间 和 系统 可 用 性 的 。 

图 15-17 显示 了 一 个 服务 标准 协议 。 

值得 注意 的 是 ， 针 对 DW2.0 环境 的 不 同 部 分 有 
着 不 同 的 服务 标准 协议 。 例 如 ， 对 于 交互 区 有 OLTP 
啊 应 时 间 的 SLA。 对 于 整合 区 ， 有 多 个 事务 啊 应 时 间 
的 SLA。 对 于 近 线 区 ， 有 数据 传输 的 SLA， 等 等 。 这 
样 ， 就 有 一 套 可 度量 的 操作 参数 来 概括 终端 用 户 对 于 
性 能 和 可 用 性 的 期 望 值 。 服 务 标 准 协 议定 义 了 IT 组 
织 和 终端 用 户 之 间 的 操作 边界 。 


服务 标准 协议 
。 8:00AM ~5:00PM， 周 一 到 周 五 
。 最 多 5 秒 的 响应 时 间 
e 5:00PM ~12:00AM， 周 一 到 周 五 


。30 秒 的 响应 时 间 
e 12:00AM ~8:00AM， 周 一 到 周 五 
。 没有 确定 的 响应 时 间 
周 六 、 周 日 
。 没有 确定 的 响应 时 间 





图 15-16 将 任务 流 分 为 全 占用 大 量 资 
源 的 进程 和 不 会 占用 大 量 资 图 15-17 服务 标准 协议 是 衡量 事务 型 环境 和 分 析 
源 的 进程 是 一 种 好 方法 型 环境 的 一 种 好 方法 


15.21 保护 交互 区 


保护 交互 区 是 保证 DW2.0 环境 性 能 的 男 一 个 方法 。 直 到 确定 数据 不 会 被 访问 之 前 ， 
交互 区 的 数据 不 能 被 移动 到 整合 区 。 考 虑 一 下 过 早 地 将 数据 从 交互 区 移出 时 会 发 生 什 么 。 
对 于 数据 的 请 求 会 被 转移 到 整合 区 ， 而 整合 区 的 在 线 响应 时 间 是 不 能 保障 的 ， 这 样 在 整 
合 区 找寻 数据 就 需要 消耗 一 定 的 时 间 。 因 此 ， 
如 果 还 有 访问 交互 区 数据 的 可 能 ， 就 应 该 把 
这 些 数据 保留 在 交互 区 。 

图 15-18 说 明了 当 还 很 有 可 能 访问 交互 
区 的 数据 时 ， 数 据 就 应 该 保留 在 交互 区 。 





15. 22 ”数据 分 割 i 

\ 人 

数据 分 割 要求 在 存储 数据 时 ， 将 数据 在 “~ ey 
物理 上 分 割 为 多 个 离散 的 部 分 。 数 据 分 割 保 i 


ee Es 图 15-18” 当 还 很 有 可 能 访问 交互 区 的 数据 时 ， 
daemonids kalo eto cope 种 玫 直达 区 
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为 了 说 明 物 理 上 将 数据 分 割 所 带 来 的 优点 ， 考 虑 一 个 10TB 大 小 的 数据 库 。 某 一 天 需 
有 要 增加 一 些 数据 或 者 重新 计算 数据 库 中 的 一 小 部 分 数据 。 当 这 项 活动 发 生 时 ， 整 个 数据 
库 可 能 会 变 得 不 可 用 。 现 在 考虑 如 果 将 数据 库 分 割 为 1TB 的 块 时 会 发 生 什 么 。 只 有 二 小 
部 分 数据 在 修改 过 程 中 是 不 可 用 的 。 这 样 做 的 话 ， 就 可 以 自由 地 使 用 大 多 数 数据 来 完成 
一 些 之 前 无 法 完成 的 处 理 要 求 。 

分 割 方法 适用 于 DW2. 0 环境 下 任何 存储 着 大 量 数据 的 部 分 。 图 15-19 描述 了 这 种 数 
据 分 割 。 


15. 23 选择 合适 的 硬件 
在 DW2.0 环境 下 ， 选 择 合适 的 硬件 和 软件 对 性 能 有 很 大 的 影响 〈 见 图 15-20) ， 





图 15-19 存储 时 的 数据 分 割 图 15-20 ”选择 满足 性 能 要 求 的 合适 的 技术 


1 D4 区 分 农民 和 “探索 者 ” 


基于 数据 不 同 的 使 用 方式 来 区 分 处 理工 作 也 是 优化 性 能 的 一 个 方法 。 为 此 ， 用 户 可 以 
大 体 被 分 为 两 类 一 一 “农民 ”和 “探索 者 ”。 

农民 是 指 从 事 的 分 析 活 动 有 着 规律 性 和 可 预见 性 的 终端 用 户 。 他 们 在 开始 查找 数据 之 
前 就 知道 他 们 想得到 什么 。 而 探索 者 的 活动 则 很 难 预 测 ， 探 索 者 可 能 6 个 月 内 不 会 做 任何 
分 析 活 动 ， 但 突然 在 一 周 之 内 需要 做 大 量 的 分 析 型 处 理 。 他 们 在 开始 查找 之 前 并 不 确切 
地 知道 他 们 想 要 什么 。 

农民 和 探索 者 都 是 DW2. 0 环境 的 合法 用 户 。 他 们 都 应 得 到 资源 ， 并 且 都 为 公司 的 决 
末 过 程 做 出 了 颇 有 价值 的 贡献 。 但 是 ， 有 一 个 很 好 的 原因 使 得 需要 将 农民 和 探索 者 分 开 ， 
即 这 两 种 类 型 的 数据 仓库 使 用 者 进行 的 分 析 活 动 是 完全 不 同 的 ， 就 像 油 和 水 。 当 将 两 种 
不 同类 型 的 用 户 群 体 的 分 析 活 动 分 开 时 ， 整 个 数据 仓库 环境 
的 性 能 就 提高 了 。 图 15-21 更 加 说 明了 在 相同 的 环境 下 农民 
和 探索 者 不 能 混合 在 一 起 ， 而 需要 被 区 分 开 。 


15. 25 数据 的 物理 分 组 


为 提高 数据 仓库 的 性 能 ， 另 一 个 应 该 完成 的 基本 活动 就 
年: 当 大 多 数 用 户 对 数据 进行 分 组 使 用 时 ， 将 这 些 数 据 在 物 
理 上 也 进行 分 组 。 

图 15-22 通过 颜色 深浅 区 分 了 五 种 不 同类 型 的 数据 。 如 ”图 15-21 将 农民 与 探索 者 分 开 
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果 分 析 者 认为 95% 的 情况 下 这 些 数据 都 是 一 起 被 访问 的 ， 那 对 于 数据 库 设 计 者 来 说 ， 将 
这 些 数 据 以 其 最 常见 的 访问 方式 物理 地 组 合 起 来 是 很 有 意义 的 。 以 这 种 方式 将 数据 组 合 
起 来 ， 系 统 就 可 以 有 效 地 获取 数据 。 

像 这 样 根据 数据 被 访问 和 使 用 的 形式 来 组 合 数 
据 被 认为 是 数据 的 非 正 规 化 。 通 常 ， 数 据 的 非 正 
规 化 对 于 公司 数据 仓库 来 说 并 不 是 好 的 数据 架构 pn 
实践 ， 并 不 推荐 。 公 司 的 主要 数据 仓库 中 的 数据 “图 15-22 当 数 
不 应 该 以 这 种 方式 非 正 规 化 ， 除 非 确定 了 一 个 极 们 应 该 在 物理 上 组 合 起 来 ， 虽 
其 有 必要 的 、 一 致 的 和 持久 的 数据 子 集 访问 方式 。 然 这 种 组 合 是 非 正规 化 的 


15. 26 检查 自动 产生 的 代码 


检查 由 分 析 工 具 产 生 的 代码 是 提高 数据 仓库 性 能 的 一 个 好 的 实践 。 我 们 通常 假设 分 析 
工具 〈 如 商业 智能 工具 ) “可 以 并 总 是 自动 产生 高 效 且 有 用 的 代码 。 但 这 并 不 是 一 个 安全 
的 假设 ， 因 为 分 析 工 具 经 常 产生 低 效 的 代码 。 因 此 ， 对 于 分 析 者 来 说 有 必要 确保 正在 产 
生 的 代码 的 效率 至 少 是 符合 最 低 要 求 的 。 图 
15-23 描述 了 一 项 为 确保 自动 产生 的 商业 智能 
查询 操作 达到 其 要 求 的 效率 而 进行 的 检查 。 

可 以 从 很 多 方面 达到 良好 的 数据 仓库 性 
能 。 以 上 所 讨论 的 措施 几乎 都 可 以 在 任何 时 刻 
同时 实现 。 








图 15-23 不 要 假定 所 使 用 的 分 析 工 具 产 生 的 
15. 27 ”企业 用 户 的 观点 码 是 有 效 甚 至 是 正确 的 


企业 用 户 对 整个 DW2. 0 中 活动 的 性 能 都 有 人 敏锐 的 意识 。 他 是 通过 对 各 项 性 能 的 交付 
与 否 来 了 解 各 性 能 的 。 

企业 用 户 的 职责 是 ， 在 系统 性 能 出 现 衰退 时 通知 系统 管理 员 。 通 常会 有 服务 标准 协 
议 ， 它 能 够 加 强 或 减弱 企业 用 户 与 系统 管理 员 之 间 的 对 话 。 

企业 用 户 很 少 参与 对 性 能 的 补救 工作 。 关 注 DW2. 0 环境 内 部 出 现 的 问题 是 系统 管理 
员 的 职责 。 

有 时 ， 企 业 用 户 会 要 求 一 个 新 级 别 的 性 能 。 例 如 ， 可 能 会 在 归档 环境 中 要 求 在 线 响 应 
时 间 。 只 要 企业 用 户 愿 意 为 性 能 埋单 ， 就 确实 可 以 提升 性 能 的 级 别 。 不 过 ， 大 多 数 企业 
用 户 并 不 原意 为 系统 资源 和 服务 付费 。 如 果 企 业 用 户 愿意 对 技术 升级 进行 投资 ， 那 系统 
的 性 能 就 总 能 提高 。 

服务 标准 协议 的 价值 在 这 一 点 上 就 表现 得 十 分 明显 。 有 了 服务 标准 协议 及 其 附属 的 度 
量 方法 ， 企 业 用 户 和 系统 管理 员 就 可 以 进行 富有 成 效 的 商谈 ， 从 而 避免 许多 实际 问题 。 
但 是 ， 如 果 没 有 服务 标准 协议 ， 企 业 用 户 和 系统 管理 员 就 很 难 进 行 明 智 的 对 话 。 


15.28 总 结 


性 能 问题 是 整个 DW2. 0 环境 一 个 必 不 可 少 的 特征 。 
有 两 种 类 型 的 性 能 一 一 事务 型 和 分 析 型 。 
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事务 型 处 理 的 性 能 出 现 问题 时 ， 公 司 的 操作 型 活动 会 受到 影响 。 而 当 分 析 型 处 理 的 
现 问题 时 ， 公 司 的 分 析 能 力 就 会 受到 影响 。 

好 的 性 能 是 多 方面 因素 共同 作用 的 结果 ， 包 括 但 不 仅 限于 以 下 几 个 方面 : 
选择 合适 的 索引 。 

尽快 移 除 休眠 数据 。 

培训 终端 用 户 怎样 识别 好 的 和 差 的 代码 。 

监控 事务 和 数据 仓库 环境 ， 以 便当 性 能 变 差 时 ， 可 以 有 一 个 用 于 判断 到 底 出 现 什 
么 错误 的 起 点 。 

规划 容量 以 便 组 织 可 以 预见 资源 将 要 被 用 完 。 

升级 ， 保 证 正在 使 用 的 是 最 新 版 本 的 硬件 和 软件 。 

元 数据 ， 以 便利 用 重用 性 ， 最 小 化 所 需 的 工作 量 。 

批 处 理 ， 减 少 消耗 的 时 间 。 

事务 并 行 ， 有 效 地 处 理 大 的 工作 负荷 量 。 

工作 负荷 量 管理 ， 保 证 一 项 工作 不 会 因为 大 小 而 和 其 他 工作 冲突 。 
数据 集 市 ， 完 成 从 中 央 数 据 仓库 中 转 出 的 主要 的 分 析 型 处 理 。 

探索 工具 ， 将 统计 型 处 理 移动 到 其 他 位 置 进行 。 

基于 事务 所 要 使 用 的 资源 将 事务 分 为 不 同 的 类 。 

服务 标准 协议 ， 建 立 量化 的 指标 来 衡量 性 能 。 

保护 交互 区 来 最 小 化 资源 的 争夺 。 

将 数据 分 成 不 同类 别 来 分 别管 理 。 

选择 合适 的 硬件 和 软件 来 实现 性 能 。 

区 别 农民 和 探索 者 的 工作 。 

非 正 规 化 数据 ， 将 经 常会 被 同时 访问 的 数据 物理 地 放 到 一 起 。 

检查 由 工具 (如 商业 智能 工具 ) 自动 产生 的 代码 。 

些 只 是 在 DW2.0 环境 下 提高 性 能 的 一 些 技术 和 方法 。 


第 16 章 迁 黎 


DW2. 0 是 一 个 巨大 且 复 杂 的 环境 ,需要 利用 大 量 的 资源 并 经 过 很 长 的 时 间 来 建立 它 。 
图 16-1 指出 DW2.0 环境 更 像 一 座 城市 而 不 是 一 座 房 子 。 


16. 1 房屋 和 城市 


建 一 座 房子 需要 相对 较 短 的 时 间 ， 在 建立 过 
程 中 有 一 个 明确 的 起 点 和 终点 。 房 子 一 般 是 在 
某 个 单一 的 时 间 点 达到 了 可 用 性 ， 即 在 一 个 点 
它 还 是 不 可 用 的 ， 而 在 男 一 个 点 它 就 可 用 了 。 

而 一 座 城市 的 建造 过 程 是 非常 难 的 ， 并 且 需 一 座 城市 
要 很 长 一 段 时 期 。 从 城市 里 的 第 一 座 建 筑 物 建 ”图 16-1 构建 DW2.0 环境 时 ， 你 是 在 建 一 
起 来 开始 ， 城 市 就 可 用 了 。 城 市 可 能 有 规划 也 座 城市 而 不 是 一 座 房子 
可 能 没有 规划 ， 即 使 各 个 城市 都 有 一 些 相 同 的 
特征 ， 但 各 个 城市 还 是 拥有 各 自 的 特征 。 例 如 ， 雅典、 罗马 、 纽 约 和 东京 都 有 飞机 场 、 
市 政大 楼 、 住 宅 区 和 高 档 区 , 但 是 它们 之 间 却 不 会 被 混淆 。 了 雅典 有 巴特 农 神殿 ， 巴 歼 有 
埃菲尔 铁塔 ， 纽 约 有 金融 区 ， 东 京 有 横 跨 在 横滨 海湾 上 的 螺旋 交通 大 桥 。 

上 述 规则 同样 适用 于 DW2. 0 数据 仓库 ， 虽 然 使 用 了 相同 的 结构 ， 但 可 口 可 乐 、 花 族 
银行 、 帝 国 商 业 银行 以 及 克莱斯勒 等 企业 的 DW2. 0 的 实施 是 非常 不 同 的 。 

如 果 企 业 几 乎 从 来 没有 打算 建立 一 个 DW2.0 环境 ， 那 又 怎么 最 终 实 现 DW2. 0 环境 
呢 ? 答案 就 是 会 逐渐 发 展 。 随 着 时 间 的 推移 ， 企 业 了 逐渐 向 DW2. 0 构架 迁移 。 


16.2 在 一 个 完美 情况 中 迁移 


在 一 个 完美 情况 中 ，DW2. 0 的 构造 过 程 模拟 了 DW2.0 环境 中 数据 流 的 流动 过 程 。 图 
16-2 反映 出 一 个 “完美 世界 ”中 DW2. 0 构架 的 实施 过 程 。 该 图 显示 了 在 没有 其 他 数据 仓 
库存 在 的 前 提 下 ， 构 造 DW2. 0 数据 仓库 的 步 又。 每 一 层 处 理 的 建立 都 作为 下 一 层 处 理 建 


16.3 完美 情况 几乎 永远 不 会 发 生 


但 是 图 16-2 中 的 顺序 只 是 一 种 理论 上 的 构造 顺序 ， 一 个 DW2. 0 数据 仓库 几乎 从 来 不 
会 以 所 描述 的 那 种 自 顶 向 下 的 顺序 来 构造 的 。DW2. 0 数据 仓库 不 能 以 这 种 “自然 ”的 顺 
序 构造 的 主要 原因 是 ， 几 乎 所 有 创建 DW2. 0 数据 仓库 的 人 都 在 适当 的 位 置 拥 有 了 一 个 已 
存在 的 数据 仓库 。 

图 16-3 给 出 了 几乎 所 有 人 在 构造 之 初 的 基础 结构 ， 包 括 遗 留 的 应 用 环境 、ETL 处 理 、 
数据 库 或 者 数据 仓库 。 这 是 大 多 数 企业 的 基础 结构 中 最 基本 的 组 件 。 
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图 16-2 DW2.0 建立 的 “自然 ”顺序 


16. 4 增 量 式 添 加 组 件 


关于 DW2. 0 构架 的 一 个 好 的 消息 是 ， 它 的 大 部 分 组 件 都 可 以 根据 需要 ， 独 立 的 、 增 
量 地 添加 进来 。 这 种 独立 的 、 不 断 增加 的 能 力 意味 着 公司 可 以 以 一 种 有 序 的 方式 向 
DW2. 0 环境 迁移 和 进化 。 迁 移 并 不 是 根除 并 丢弃 已 有 系统 ， 相 反 ， 在 构建 DW2.0 时 
DW2. 0 的 基础 结构 组 件 可 以 建立 在 已 有 的 数据 仓库 上 。 
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给 现 有 的 数据 仓库 基础 结构 增加 一 个 近 线 存储 是 向 DW2. 0 构架 增 量 迁移 的 一 个 很 好 
的 例子 。 虽 然 近 线 存 储 是 可 选 的 且 并 非 所 有 公司 都 会 采用 ， 但 一 旦 需要 ， 它 就 是 不 可 答 
代 的 。 向 第 一 代数 据 仓库 环境 添加 近 线 存 
储 在 构架 上 是 件 简 单 的 事 ， 并 不 需要 什么 
特别 的 工作 或 准备 。 

图 16-4 说 明了 向 一 个 已 有 的 数据 仓库 
环境 添加 近 线 存储 的 过 程 。 


16. 5 添加 归档 区 


接 下 来 考虑 归档 区 ， 归 档 区 也 可 以 在 没 
有 预先 准备 的 情况 下 建立 。 第 一 天 没有 归 
档 设备 ,但 第 二 天 就 可 以 有 ， 并 不 需要 在 
过 程 中 对 第 一 代数 据 仓 库 做 什么 特殊 的 > 
事情 。 图 16-3 大 多 数组 织 开 始 的 地 方 
图 16-5 说 明了 向 已 有 的 第 一 代数 据 仓 
库 环 境 添加 归档 区 的 过 程 。 








图 16-5 添加 归档 区 是 相对 容易 的 
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16.6 建立 企业 元 数据 


对 于 DW2. 0 元 数据 设备 也 是 与 如 上 同样 的 考虑 。 通 常 ， 本 地 元 数据 已 经 被 存放 在 革 
个 适当 的 位 置 了 。 无 论 是 否 使 用 本 地 元 数据 ， 提 供 技术 的 经 销 商 通常 都 会 提供 元 数据 
(例如 ETL 元 数据 、 商 业 智 能 元 数据 和 DBMS 元 数据 ) 的 本 地 存储 和 管理 的 设备 。 所 以 本 
地 元 数据 通常 已 经 存在 ,需要 添加 的 是 企业 元 数据 。 建 立 企 业 元 数据 通常 由 以 下 三 个 步 
又 组 成 : 

。 建立 企业 元 数据 存储 库 。 

。 将 本 地 元 数据 移 人 企业 元 数据 存储 库 中 。 

。 调整 本 地 元 数据 以 适应 企业 元 数据 的 格式 。 

最 后 一 步 通常 总 是 最 难 的 ， 调 整 本 地 元 数据 使 其 遵循 全 局 的 、 企 业 的 格式 和 结构 是 一 
项 非常 困难 的 任务 。 


16. 7 建立 元 数据 基础 结构 


建立 一 个 企业 级 的 元 数据 存储 库 决 不 需要 破坏 或 者 丢弃 原 有 的 环境 ， 相 反 。 DW2.0 
的 元 数据 基础 结构 是 建立 在 已 存在 的 数据 仓库 的 基础 结构 之 上 的 。 
图 16-6 描述 了 在 已 有 的 第 一 代数 据 仓库 上 建立 企业 元 数据 基础 结构 的 过 程 。 





图 16-6 从 各 种 来 源 收集 起 来 的 元 数据 构成 企业 的 元 数据 存储 库 


16. 8 “吞没 ” 源 系 统 


在 已 有 的 操作 应 用 环境 中 ， 如 果 任意 一 个 位 置 可 能 已 经 停止 运行 ， 那 么 它 就 是 一 个 淖 
留 应 用 程序 ， 需 要 被 DW2. 0 环境 的 交互 区 来 消化 吸收 。 在 大 多 数 情况 下 ,交互 区 会 “ 舌 
没 ” 旧 的 源 系统 ， 而 在 其 他 情况 下 ， 源 应 用 程序 会 保持 原样 ， 并 简单 地 继续 向 交互 区 提 
供 数 据 。 

在 源 应 用 被 交互 区 春 没 的 情况 下 ， 这 个 应 用 肯定 就 是 一 个 陈旧 过 时 的 遗留 系统 了 ， 这 
择 被 香 没 的 遗留 应 用 是 很 久 以 前 设计 的 ， 用 来 满足 当时 的 业务 需求 ， 而 这 种 需求 早已 改 
变 了 。 如 果 交 互 区 没有 随 着 改变 ， 那 么 这 些 遗留 应 用 无 论 如 何 都 需要 再 重新 改造 。 
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图 16-7 显示 了 如 何 将 一 些 遗 留 应 用 吸收 到 交互 区 中 。 


16.9 作为 缓冲 器 的 ETL 


ETL 处 理 扮 演 着 一 个 整个 数据 仓库 演进 和 
迁移 过 程 的 缓冲 器 的 角色 。 通 过 ETL 转换 后 ， 
在 操作 源 应 用 程序 世界 产生 的 大 的 变化 对 交互 
区 的 影响 将 会 降 到 最 小 。 同 样 ， 交 互 区 也 可 能 
出 现 一 个 大 的 变化 ， 通 过 ETL 转换 后 ， 其 不 会 


对 整合 区 产生 影响 或 者 降 到 最 小 。 





图 16-7 将 遗留 应 用 吸收 到 交互 区 


图 16-8 给 出 了 ETL 在 不 同 区 之 间 充 当 缓 冲 带 的 示意 图 。 


16. 10 ”迁移 到 非 结 构 化 的 环境 


韭 结 构 化 的 数据 领域 是 DW2.0 数据 仓 
库 环 境 的 一 个 最 新 、 最 重要 的 特征 。 在 许 
多 DW2.0 环境 中 ， 非 结构 化 的 数据 作为 一 
个 添加 组 件 打开 了 通 向 更 多 种 类 的 分 析 和 
决策 支持 处 理 的 大 门 。 

DW2.0 环境 的 非 结 构 化 数据 迁移 与 结 
构 化 数据 迁移 有 很 大 的 区 别 ， 虽 然 结 构 化 
环境 几乎 总 是 以 第 一 代数 据 仓 库 的 形式 出 
现 ， 但 非 结 构 化 组 件 却 不 是 。 几 乎 不 存在 
已 有 的 非 结构 化 数据 可 以 加 入 到 DW2. 0 数 
据 仓 库 环境 当 中 。 

图 16-9 显示 出 非 结 构 化 数据 几乎 总 是 
从 它 的 文本 源 获 取 ， 通 过 一 个 新 的 非 结 构 
化 数据 ETL 例 行 处 理 进 入 到 DW2.0 数据 
仓库 的 非 结 构 化 领域 。 

在 非 结 构 化 数据 进入 到 DW2. 0 数据 仓 
库 中 后 ， 结 构 化 数据 和 非 结 构 化 数据 间 的 
链接 也 就 建立 起 来 了 。 图 16-10 描述 了 在 
一 个 DW2.0 区 域 结 构 化 数据 域 和 非 结 构 化 
数据 域 的 链接 的 形成 。 








16-8 ETL 处 理 类 似 一 个 缓冲 需 


随 着 时 间 的 推移 ， 非 结构 数据 也 将 会 停止 使 用 ， 其 会 移 到 DW2.0 归档 区 的 非 结 构 化 
数据 域 当 中 。 在 第 19 章 我 们 会 详细 介绍 关于 非 结 构 化 数据 的 问题 。 


16. 11 企业 用 户 的 观点 


企业 用 户 会 间接 地 参与 迁移 。 企 业 用 户 决 定 了 DW2.0 之 中 应 包含 哪些 新 的 对 象 域 ， 
数据 在 什么 时 间 应 该 进入 归档 区 和 近 线 存储 区 ， 数 据 如 何 从 一 个 区 向 为 一 个 区 转换 。 
但 是 最 终 ， 企 业 用 户 不 会 涉及 DW2.0 环境 建立 过 程 中 的 数据 迁移 。 
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图 16-10 非 结 构 化 环境 和 结构 化 环境 相 联 
16. 12 总 结 


DW2.0 数据 仓库 的 构架 有 一 个 自然 的 迁移 顺序 。 自 然 迁 移 的 顺序 是 根据 数据 流动 方 
问 而 定 的 一 一 首先 进入 交互 区 ， 然 后 是 整合 区 ， 然 后 是 近 线 区 ， 最 后 是 归档 区 。 虽然 自然 
顺序 已 经 定义 好 了 ,但 它 只 是 理论 上 的 。 


在 实际 中 ，DW2. 0 环境 是 从 第 一 代数 据 仓库 发 展 形成 的 。 归 档 环境 可 以 独立 加 入 ， 
近 线 环境 可 以 独立 加 入 ， 同样， 企业 的 元 数据 结构 和 非 结构 化 数据 域 也 可 以 独立 加 入 。 
针对 不 同业 务 的 需要 ， 可 以 将 不 同 的 组 件 加 入 到 DW2. 0 环境 中 。 

遗留 应 用 系统 是 仅 有 的 、 预 先 存在 的 可 能 在 移 和 人 DW2.0 的 过 程 中 但 到 破坏 或 者 被 代 
管 的 系统 。 有 时 候 ， 旧 的 系统 环境 会 因为 它 太 过 时 、 太 过 于 脆弱 ， 以 至 于 相 比 整合 数据 
进入 旧 系 统 ， 还 不 如 重 写 系统 。 


第 17 章 成 本 验证 和 DW2. 0 


毫 无 疑问 ，DW2. 0 的 基础 设施 需要 很 大 的 成 本 。 建 立 它 、 运 转 它 都 需要 成 本 ， 所 使 
用 的 设备 也 有 成 本 。 
然而 ， 大 部 分 公司 部 是 反对 大 的 支出 的 。 


17. 1 DW2.0 的 成 本 值 吗 


很 目 然 ， 会 不 可 避免 地 产生 关于 DW2. 0 值 不 值 的 谈话 ， 谈 话 内 容 大 体 如 下 : 

“这 个 新 的 设备 需要 大 量 的 成 本 ， 你 确定 它 值 这 些 成 本 吗 ? 为 什么 我 要 做 一 个 这 么 大 
的 投资 ?” 

高 层 管理 人 员 对 DW2.0 环境 提出 疑问 是 绝对 正常 的 。 而 你 仅 是 坐 在 那里 说 : “我 的 
直觉 告诉 我 这 是 一 件 我 们 应 该 做 的 事情 。” 这 个 理由 是 非常 不 充分 的 。 

所 以 ， 当 高 层 管理 人 员 询 问 你 关于 DW2. 0 基础 设施 的 价值 时 ， 你 将 如 何 回答 ? 


17.2 宏观 层次 的 价值 验证 


回应 管理 层 的 一 种 方法 是 在 宏观 层次 上 进行 回答 。 宏 观 层次 是 指 你 看 到 一 些 大 的 因 
素 ， 并 且 可 以 将 DW2.0 的 价值 联系 到 这 些 大 的 因素 上 。 你 可 以 说 : “ABC 公司 引进 了 
DW2.0， 然后 他 们 的 股票 涨 了 。” 或 者 也 可 以 说 :“XYZ 公司 引进 了 DW2.0， 然 后 他 们 的 
利润 增加 了 。” 

虽然 说 DW2. 0 对 股票 价格 或 者 利润 很 可 能 是 有 利 的 ， 但 如 上 所 说 还 是 缺乏 可 信和 度 的 ， 
因为 有 多 种 因素 影响 一 个 公司 的 股票 价格 。 在 最 好 的 情况 下 ，DW2.0 设备 只 是 许多 因素 
中 的 一 个 。 对 于 公司 利润 也 是 同样 的 道理 。 | 

DW2.0 环境 对 这 样 大 的 宏观 因素 的 作用 似是而非 ， 所 以 说 这 种 话 的 人 的 可 信和 度 也 受 
到 质疑 。 

图 17-1 给 出 了 在 宏观 层次 证 明 DW2.0 的 价值 。 


17.3 微观 层次 的 价值 验证 


在 微观 层次 上 解决 DW2. 0 环境 的 价 
值 验证 问题 是 一 种 更 为 可 信 的 方法 。 在 
微观 层次 上 可 以 对 DW2.0 环境 的 建立 和 
操作 形成 更 为 令 人 信服 的 理由 。 

比如 ， 有 两 个 公司 A 和 B， 见 图 17-2。 

两 个 公司 的 信息 基础 结构 非常 相似 ， 
同时 两 个 公司 都 有 许多 旧 的 遗留 系统 。 公 
司 以 旧 的 面向 事务 的 技术 来 完成 公司 的 业 
务 ， 并 且 已 经 保持 了 很 长 的 一 段 时 间 。 





图 17-1 在 宏观 层次 对 DW2. 0 进行 价值 证 明 是 很 难 的 
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图 17-3 显示 了 公司 A 和 B 都 有 遗留 数据 并 且 需 要 新 的 分 析 方 法 。 
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图 17-2 考虑 两 个 公司 图 17-3 无 论 是 A 公司 还 是 B 公司 都 存在 过 时 的 系统 并 需要 新 的 分 析 


性 


17.4 公司 B 拥 有 DW2.0 


A 公司 和 B 公司 所 拥有 的 基本 构架 组 件 几 乎 都 是 相同 的 。 但 是 有 一 个 非常 大 的 不 同 ， 
就 是 公司 A 没有 DW2.0 设施 ， 而 公司 B 有。 图 17-4 描述 了 两 个 公司 间 的 这 个 基本 区 别 。 
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图 17-4 对 于 两 个 公司 来 说 ， 唯 一 不 同 的 地 方 就 是 B 公 司 有 DW2.0 环境 


17.5 生成 新 的 分 析 


无 论 如何 公 司 都 需要 新 的 分 析 。A 公司 如 何在 它 遗 留 的 数据 基础 上 建立 新 的 信息 ?图 
17-5 描述 了 A 公司 需要 回 到 它 的 遗留 应 用 程序 库 去 生成 一 个 新 的 分 析 。 





图 17-5 A 公司 是 如 何 建立 分 析 的 
那些 遗留 的 数据 是 A 公司 唯一 要 操作 的 数据 ， 没 有 其 他 的 数据 。 
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所 以 ，A 公司 如 何 去 生 成 新 的 分 析 ? A 公司 需要 进入 遗留 的 环境 并 且 
。 查找 到 需要 的 数据 。 

。 收集 数据 。 

。 整合 数据 。 

e 演绎 数据 。 三 

。 创建 一 个 新 的 报表 或 者 分 析 。 

图 17-6 显示 了 A 公司 需要 进行 的 步骤 。 
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图 17-6 ”如果 要 建立 新 的 分 析 需 要 做 什么 工作 








17.6 按 步 又 执行 


这 些 是 正常 的 目 然 的 步骤 ， 现 在 让 我 们 来 考虑 执行 这 些 步 又 具体 都 需要 什么 。 

为 得 到 数据 ， 旧 的 遗留 数据 就 必须 有 文档 记录 ， 然 而 许多 较 旧 的 遗留 系统 并 没有 文 
档 。 其 次 ， 当 找到 文档 后 ， 这 些 文档 还 没有 更 新 至 最 新 。 另 外 ， 在 检查 旧 的 遗留 系统 时 
还 会 发 现 很 多 混乱 的 地 方 : 没有 命名 标准 ， 运 算 方法 不 同 ,还 有 很 多 不 同 的 编码 标准 ， 
等 等 。 

其 中 ， 更 为 糟糕 的 是 根本 就 没有 文档 。 已 经 没有 太 多 的 程序 员 或 者 分 析 员 能 够 理解 当 
前 的 技术 ， 更 别 说 锁定 旧 的 遗留 环境 的 技术 都 是 很 陈旧 的 技术 。 比 如 旧 的 IMS 编码 ， 旧 
的 Model 204 编码 ， 旧 的 Adabas 编码 ， 旧 的 2000 系统 编码 。 现 在 已 经 没有 任何 工作 者 能 
够 明日 这 些 编码 。 

所 以 ,寻找 和 理解 旧 的 遗留 系统 环境 产生 的 数据 是 非常 重要 的 任务 。 

假设 能 够 找到 并 解释 旧 的 遗留 代码 ， 那 么 下 一 步 便 是 从 遗留 环境 中 收集 数据 。 这 需要 
已 经 消失 很 入 的 定位 技术 。 一 旦 找到 这 些 技术 ， 那 么 就 能 从 遗留 环境 中 得 到 大 量 数据 。 

接 下 来 是 整合 数据 。 如 果 数 据 仅 来 源 于 一 个 系统 ， 那 么 就 没有 什么 问题 ， 但 是 如 果 数 
据 来 源 于 多 个 不 同系 统 ， 那 么 就 会 出 现 整合 的 问题 。 关 键 字 结构 不 同 ， 数 据 格 式 不 同 ， 
一 些 数据 丢失 并 且 必 须 采 用 默认 值 ， 相 同 的 属性 有 不 同 的 名 字 ， 数 据 的 定义 不 同 ， 等 等 。 

一 个 处 理 旧 的 遗留 数据 的 人 需要 去 合并 多 个 系统 的 数据 ， 而 这 些 系统 并 不 是 为 了 合并 
而 设计 的 。 如 条 没有 合适 的 文档 ， 并 且 使 用 了 某 种 神秘 的 技术 来 编写 系统 ,那么 对 系统 
做 一 个 适当 的 整合 的 结果 最 多 也 就 是 不 能 确定 的 ， 甚 至 更 坏 。 

在 找到 、 收 集 和 整合 完 数 据 后 ， 就 将 数据 分 级 。 此 时 ， 不 同 来 源 的 数据 将 被 收集 在 一 
个 单一 的 物理 存储 位 置 。 

现在 ， 也 只 能 是 现在 ,书写 报告 的 过 程 才 可 以 开始 。™ 

在 给 出 的 上 述 这 些 挑 战 下 ， 生 成 一 个 新 的 分 析 需 要 多 少 成 本 ?这 全 部 取决 于 遗留 环境 
以 及 分 析 的 要 求 。 有 些 遗 留 环 境 实在 是 过 于 混乱 ， 而 有 些 就 比较 好 处 理 ; 有 些 报表 和 分 
析 非 常 简单 ， 而 有 些 就 非常 难 。 
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17.7 总 成 本 是 多 少 
在 图 17-7 中 显示 了 建立 一 个 分 析 需 要 的 一 系列 成 本 。 





图 17-7 ”做 这 个 项 目 需要 花费 多 少 钱 和 多 少时 间 ? 从 100 000 美元 到 10 000 000 美元 ， 从 3 个 月 到 3 年 


根据 生成 过 程 中 的 细节 ， 建 立 一 个 新 的 分 析 大 概 需要 花费 100 000 美元 到 10 000 000 
关 元 ， 时 间 大 概 需 要 3 个 月 到 3 年 。 由 于 多 种 因素 ， 成 本 往往 会 发 生 较 大 变化 ， 比 如 ; 

。 凌 留 程序 的 个 数 。 

。 但 留 系统 的 复杂 性 。 

。 遗留 应 用 程序 的 文档 。 

。 竟 留 环境 的 技术 构架 。 

。 新 数据 需求 的 复杂 度 。 

。 需要 分 析 的 数据 量 。 

。 新 信息 所 需 的 数据 元 素 的 个 数 。 

。 挝 留 数 据 库 与 当前 最 新 版 本 的 匹配 程度 。 

。 提留 环境 的 操作 系统 。 


17.8 考虑 公司 B 


现在 再 考虑 公司 B， 它 也 需要 一 个 新 的 分 析 。 那 么 利用 DW2. 0 设施 去 建立 一 个 新 的 
分 析 需 要 多 少 成 本 ? 图 17-8 给 出 了 答案 。 





图 17-8 一 旦 DW2.0 环境 搭建 起 来 了 ， 做 这 个 分 析 需 要 花费 多 少 钱 和 多 少时 间 ? 从 1000 美元 到 
10 000 美元 ， 从 1 小 时 到 5 天 


在 图 17-8 中 可 以 看 到 大 概 需要 1000 到 10 000 美元 和 1 小 时 到 5 天 来 完成 这 个 分 析 。 
从 这 些 数 据 可 以 看 出 公司 B 与 公司 A 相 比 有 着 非常 轻松 的 信息 设施 构建 过 程 。 而 两 个 公 
司 唯一 的 不 同 就 是 DW2. 0 设施 的 存在 。 

根据 这 些 观察 值 可 以 看 出 ，DW2.0 极 大 地 降低 了 一 个 公司 的 信息 成 本 ， 换 种 说 法 就 
是 ，DW2.0 打开 了 通 往 之 前 本 来 已 经 存在 却 不 能 访问 的 信息 的 大 门 。 
17.9 考虑 DW2. 0 的 成 本 


但 是 仅仅 比较 关于 信息 的 数字 难免 会 产生 偏差 ， 偏 差 来 源 于 没有 把 DW2. 0 设施 的 成 
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本 加 入 到 计算 公式 。 当 计算 时 加 入 DW2.0 设施 的 成 本 时 会 发 生 什 么 呢 ? 图 17-9 显示 了 这 
个 公式 还 需要 更 多 的 工作 。 





图 17-9 但 是 建立 DW2.0 环境 的 成 本 呢 


构建 和 操作 DW2. 0 设施 并 不 廉价 。 当 然 大 部 分 成 本 取决 于 数据 量 、 用 户 量 、 旧 遗留 
系统 的 数目 、 数 据 保 存 的 时 间 长 度 以 及 分 析 的 类 型 ， 等 等 。 但 是 针对 此 次 分 析 的 目的 ， 
我 们 假设 一 个 DW2. 0 设施 需要 花费 5 000 000 美元 。 

现在 ，A 公司 生成 一 个 报表 的 成 本 是 多 少 ? 我 们 假定 它 需 要 700 000 美元 去 生成 一 个 
报表 ， 那 么 对 于 B 公司 来 说 生成 相同 的 报表 的 成 本 又 是 多 少 呢 ? 是 10 000 美元 。 

那么 现在 在 这 些 报 表 成 本 中 加 入 DW2.0 环境 的 成 本 ， 和 那么 成 本 公式 会 变 成 什么 样子 
呢 ? 图 17-10 显示 了 这 些 统 计数 字 。 


对 一 个 报表 的 总 体 成 本 
需要 $700 000 


一 个 报表 需要 $10 000 
DW2.0 环 境 需 要 $5 000 000 





图 17-10 ”如 果 我 们 只 需要 一 个 报表 会 怎样 


利用 这 种 分 析 ， 建 立 一 个 DW2.0 环境 看 起 来 是 非常 昂贵 的 。 图 17-10 中 的 数字 表明 
生成 一 个 报表 需要 700 000 美元 ， 而 相同 的 结果 在 一 个 DW2.0 设施 下 需要 5 010 000 美 
元 ， 在 这 种 分 析 下 ，DW2.0 的 成 本 是 令 人 望而却步 的 。 


17. 10 ”信息 的 现实 情况 


但 是 图 17-10 的 情况 非常 不 现实 。 这 个 图 是 假定 公司 只 需要 一 个 报表 。 但 是 任何 一 家 
公司 ， 不管 它 的 规模 大 小 和 复杂 程度 如 何 ， 都 不 会 仅 在 一 个 报表 上 运作 其 所 有 业务 的 。 
即使 一 个 中 等 规模 的 公司 ， 至 少 也 要 有 100 个 报表 。 财 政 部 门 需要 一 种 形式 的 报表 ， 市 场 
部 门 要 求 另 一 种 形式 的 报表 ， 销 售 部 门 要 求 的 形式 又 不 同 。 而 对 于 大 公司 来 说 ， 就 不 止 
是 几 百 份 报表 了 ， 而 是 上 千 份 。 但 是 为 了 我 们 分 析 的 目的 ， 假 设 需 要 100 份 ， 那 实际 需要 
的 报表 数 会 怎样 改变 经 济 效 果 呢 ? 

图 17-11 显示 了 考虑 公司 实际 需要 的 报表 数量 的 结果 。 就 公司 A 来 说 ， 报 表 的 成 本 为 
100 乘 以 70 000 000 美元 ; 就 公司 B 来 说 ,报表 的 成 本 为 100 乘 以 1 000 000 美元 ,但 这 
里 只 需要 一 个 DW2.0 设备 ， 所 以 DW2.0 环境 的 成 本 是 不 变 的 。 
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图 17-11 如 果 我 们 需要 100 个 报表 会 怎样 


17. 11 DW2. 0 真正 的 经 济 效益 


现在 对 DW2. 0 环境 成 本 分 析 的 经 济 上 的 分 析 变 得 明显 了 。DW2. 0 能 够 将 新 分 析 的 成 
本 减少 一 个 量 级 甚至 更 多 。DW2.0 容许 一 个 公司 访问 和 分 析 以 前 从 未 能 够 分 析 的 数据 。 
但 是 原始 的 DW2. 0 的 经 济 分 析 并 没 能 够 说 清 这 一 点 。 


17. 12 信息 的 时 间 价 值 


天 于 信息 的 时 间 价 值 的 例子 是 确实 存在 的 ， 而 DW2. 0 能 极 大 地 加 快 信息 获取 的 速度 。 

想象 一 下 ， 你 的 老板 走 进 你 的 办 公 室 要 一 份 报表 。 你 在 一 系列 旧 的 遗留 系统 中 寻找 ， 
6 个 月 后 终于 找到 了 那 份 分 析 报 表 。 当 你 拿 着 这 份 报 表 走 进 你 老板 的 办 公 室 时 ， 你 的 老板 
已 经 起 记 了 他 几 个 月 前 让 你 做 的 事情 了 。 

由 比 较 下 面 的 例子 。 

你 的 老板 走 进 你 的 办 公 室 要 一 份 数据 分 析 ， 你 在 第 二 天 就 完成 了 这 份 分 析 。 你 第 二 天 
于 上 8 点 钟 带 着 这 份 报表 走 进 你 老板 的 办 公 室 ， 这 个 信息 对 你 老板 来 说 会 有 多 重要 ? 

关键 就 在 于 6 个 月 后 信息 已 经 根本 没什么 用 了 ， 信 息 只 有 越 新 越 及 时 ， 才 能 在 商业 中 
越 有 可 能 是 有 用 的 。 

于 县 的 时 间 价 值 是 确实 存在 的 ， 而 且 DW2. 0 环境 可 以 大 大 加 快 信息 访问 的 速度 。 

图 17-12 指出 了 信息 的 时 间 价 值 。 





图 17-12 信息 的 时 间 价 值 又 是 多 少 


17. 13 整合 的 价值 


但 是 还 有 其 他 一 些 主 要 好 处 没有 在 原始 的 经 济 效果 计算 公式 中 体现 出 来 。 比 如 还 有 下 
合 的 价值 。 
对 许多 企业 来 说 ， 仅 是 整合 ，DW2. 0 环境 的 成 本 就 是 值得 的 。 通 过 整合 ， 来 自 一 个 
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位 置 和 一 个 应 用 的 信息 可 以 与 另外 不 同 的 位 置 和 应 用 的 信息 连接 起 来 并 相关 联 。 

这 种 连通 性 的 结果 就 是 整合 。 而 有 了 整合 ， 就 可 以 完成 一 些 有 价值 的 东西 ， 例 如 用 户 
可 以 对 数据 创建 一 个 真正 的 360° 的 视角 。 

图 17-13 显示 了 整合 是 DW2. 0 环境 的 一 种 无 形 的 利益 。 





图 17-13 整合 信息 的 价值 又 是 多 少 


17. 14 历史 信息 


DW2.0 环境 还 有 一 个 无 形 的 利益 ， 就 是 从 时 间 的 角度 来 查看 数据 的 能 力 。 

在 DW2.0 出 现 之 前 有 许多 遗留 系统 。 这 些 系 统 大 部 分 都 是 面向 事务 的 ， 因 此 哪里 存 
在 事务 ， 哪 里 就 需要 提高 性 能 。 而 当 需 要 提高 性 能 时 ， 就 需要 移 除 系统 中 一 些 不 必要 的 
数据 。 系 统 中 不 必要 的 数据 就 好 像 人 体 中 的 胆固醇 一 样 。 

因此 ， 旧 遗留 环境 中 的 趋势 是 尽 可 能 快 地 丢掉 历史 数据 。 系 统 中 的 历史 数据 越 多 ， 系 
统 运行 得 就 会 越 慢 。 最 终结 果 就 是 在 遗留 系统 环境 中 只 有 最 少量 的 历史 数据 。 

但 问题 是 历史 数据 是 有 实际 价值 的 。 

如 果 遗 留 的 事务 处 理 环境 不 是 存储 历史 数据 的 位 置 ， 那 么 DW2. 0 环境 就 是 存储 历史 
数据 的 位 置 。 

图 17-14 显示 了 DW2.0 环境 是 存储 历史 数据 的 位 置 。 





图 17-14 讨论 历史 数据 的 价值 


17. 15 第 一 代 DW 和 DW2. 0 一 一 在 经 济 效益 上 的 比较 


还 有 一 种 关于 数据 仓库 的 经 济 效益 的 观点 。 第 一 代数 据 仓 库 有 将 大 量 数据 存储 在 磁盘 
存储 上 的 习惯 。 实 际 上 许多 第 一 代数 据 仓库 只 把 数据 存储 在 磁盘 存储 器 上 。 

但 是 DW2. 0 认为 除了 磁盘 存储 器 外 最 少 还 要 在 两 个 地 方 存 储 数 据 。DW2. 0 认为， 当 
数据 还 会 被 访问 但 是 访问 机 率 较 低 时 应 该 存储 在 近 线 存储 中 ， 而 且 归 档 数 通 常 也 不 存储 
在 磁盘 存储 器 上 。 

因为 对 于 使 用 不 同 的 存储 设备 ，DW2.0 的 成 本 也 明显 地 少 于 传统 的 第 一 代数 据 仓库 
的 成 本 。 图 17-15 比较 了 两 代数 据 仓 库 的 存储 介质 。 
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图 17-15 DW2.0 数据 仓库 的 成 本 将 比 传统 的 第 一 代数 据 仓 库 大 幅度 地 减少 


17. 16 企业 用 户 的 观点 


成 本 分 析 是 一 种 在 DW2. 0 的 生命 周期 内 只 需 完成 一 次 的 活动 。 在 所 有 正常 的 情况 下 
都 没有 必要 再 做 重复 的 分 析 。 

企业 用 户 会 在 很 大 程度 上 参与 DW2. 0 成 本 分 析 的 过 程 。 实 际 上 ， 企 业 用 户 在 很 多 方 
面 都 会 运用 成 本 分 析 。 

可 以 理解 为 企业 用 户 直 接 或 者 间接 投资 DW2. 0 的 基础 结构 ， 因 此 成 本 分 析 的 结果 必 
须 使 这 些 企业 用 户 和 他 们 的 管理 层 感 到 满意 。 


17.17 总 结 


在 宏观 上 对 DW2.0 进行 成 本 分 析 是 一 件 很 难 的 事情 ， 因 为 在 许多 宏观 因素 下 ， 
DW2.0 环境 所 带 来 的 好 处 不 能 体现 出 来 。 相 反 ，DW2. 0 环境 最 好 的 成 本 分 析 方 法 是 从 微 
观 上 来 看 待 成 本 分 析 。 

看 看 这 两 个 公司 

。 查找 数据 。 

。 收集 数据 。 

。 整合 数据 。 

。 分 级 数据 。 

。 汇报 和 分 析 数 据 等 。 

。 数据 仓库 的 成 本 。 

对 很 多 报表 和 分 析 查 看 上 述 因 素 ，DW2. 0 环境 的 成 本 会 比 没有 DW2 .0 环境 的 低 很 
多 。 但 是 ， 还 有 其 他 一 些 非 经 济 因 素 需要 考虑 : 数据 的 时 间 价值 ， 数据 整合 ， 以 及 现在 
已 经 可 用 的 历史 数据 〈 第 一 次 ) 。DW2. 0 环境 开启 了 一 扇 大 门 ， 使 得 组 织 能 够 去 查看 数 
据 并 做 数据 分 析 ， 这 些 都 是 它们 以 前 做 不 到 的 。 





一 个 拥有 DW2. 0 环境 而 另 一 个 没有 ， 然 后 看 看 下 面 几 项 的 成 本 : 


第 18 章 DW2.0 中 的 数据 质量 


DW2. 0 环境 没有 采用 第 一 代数 据 仓库 所 采用 的 “编码 、 载 人 和 扩展 ”标准 。 在 这 之 
后 ， 数 据 质量 问题 一 直 没 有 得 到 人 们 的 关注 ， 直 到 工程 的 最 后 时 刻 。 当 项 目 组 从 源 系 统 
中 提取 数据 并 将 其 载 人 数据 仓库 时 ， 会 发 现在 源 数据 中 存在 着 诡异 的 “精怪 ”。 这 使 项 目 
组 成 员 非 常 困惑 ， 因 而 不 可 避免 地 导致 了 预期 计划 的 极 大 延迟 。 在 测试 和 载 和 阶段 发 现 
的 数据 质量 问题 将 成 为 项 目 不 能 按期 完成 并 且 超 出 预算 的 一 个 重要 原因 ， 而 不 论 是 哪 种 
结果 ， 都 将 导致 项 目 指标 无 法 达标 。 

下 一 代数 据 仓库 方法 DW2. 0 保证 了 数据 质量 小 组 进入 数据 仓库 ， 就 好 像 火车 驶 入 了 
一 块 新 的 领土 。 在 很 早 以 前 ， 火 车 上 的 士兵 中 有 一 些 专 门 侦察 火车 将 要 驶 过 的 地 域 情况 


区 中 的 数据 源 ， 进 而 修复 数据 中 存在 的 问题 和 异常 ， 然 后 预先 向 开发 团队 发 出 警告 。 数 
据 分 析 小 组 必须 由 企业 人 员 和 信息 技术 人 员 共同 构成 。 

异常 数据 发 现任 务必 须 被 编 和 方法 中 ， 然 后 在 迭代 计划 开始 之 前 运行 该 方法 。( 数 据 
分 析 只 是 分 析 数 据 质量 所 必须 完成 的 一 项 工作 ， 另 一 个 任务 是 检验 数据 是 否 遵 循 业务 规 
则 。) 通过 这 种 方法 ,项目 组 就 能 提前 发 现 许多 数据 陷阱 ， 从 而 做 好 充分 的 准备 。 

当 发 现 数据 质量 问题 时 ， 必 须 马上 上 报 给 公司 ， 公 司 必须 决定 哪些 数据 质量 问题 是 它 
所 关心 和 需要 修复 的 。 值 得 注意 的 是 ， 并 不 是 所 有 的 数据 质量 问题 对 企业 业务 来 说 都 是 
重要 的 。 当 某 项 业务 已 经 表明 哪些 数据 质量 问题 比较 重要 时 ， 就 需要 确定 用 以 清理 数据 
的 业务 规则 。 这 些 规则 产生 了 源 数据 转换 的 规格 说 明 ， 从 而 避免 了 编码 、 载 入 和 扩展 的 
过 程 。 

在 下 一 代数 据 仓库 DW2. 0 中 ， 数 据 质量 小 组 同时 也 被 寄 希 望 于 能 够 从 一 系列 的 策略 
中 选择 出 一 些 能 够 解决 数据 质量 问题 的 策略 。 以 下 是 其 中 的 一 部 分 策略 : 

。 修复 源 数 据 : 实际 上 就 是 进入 数据 存储 区 ， 进 而 从 物理 上 修复 数据 。 

。 修复 源 程序 : 应 用 正确 的 编辑 方法 来 验证 数据 。 

。 修复 业务 过 程 : 一 个 不 完整 的 业务 过 程 通常 就 是 低 数 据 质 量 的 主要 原因 。 

。 针对 变化 的 调整 : 识别 和 解决 这 样 的 情况 ， 即 某 个 数据 属性 正在 以 其 他 一 些 目的 

被 使 用 ， 而 不 是 它 的 原始 目的 。 例 如 ， 一 个 性 别 标记 包含 多 于 两 个 不 同 的 值 。 
。 转换 数据 : 转换 数据 以 使 其 能 够 进入 数据 仓库 一 这 是 最 常见 的 但 不 是 唯一 应 该 
被 采用 的 策略 。 

在 理想 世界 中 ， 人 们 希望 能 够 找到 问题 的 原因 进而 修复 它 ， 而 不 是 仅仅 修复 所 产生 的 
结果 。 在 源头 修复 数据 和 程序 以 及 修复 业务 过 程 共同 构成 了 对 问题 原因 的 修复 。 

必须 指出 的 是 ， 在 数据 进入 整合 区 前 有 两 种 方法 能 够 转换 数据 。 第 一 种 方法 是 简单 的 
改变 数据 然后 将 它 载 入 数据 仓库 。 第 二 种 方法 也 这 么 做 ,但 是 却 载 信 了 更 多 ， 因 为 它 不 
仅 会 载 人 改变 后 的 数据 ， 而 且 还 会 载 人 改变 前 的 数据 。 在 很 多 情况 下 这 可 能 是 一 个 更 好 
的 策略 : 因为 公司 能 看 见 你 对 数据 的 具体 操作 ， 所 以 他 们 更 愿意 相信 这 些 数据 。 
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18. 1 DW2. 0 中 的 数据 质量 工具 集 


其 中 当然 包含 了 很 多 类 型 的 工具 。 数 据 分 析 工 具 用 来 查找 数据 中 存在 的 问题 ， 还 有 另 
一 组 工具 用 来 修复 数据 异常 。DW2. 0 中 还 有 一 些 用 来 监视 和 汇报 数据 质量 的 工具 。 而 负 
责 选 取 、 转 换 和 载 人 数据 的 ETL 工具 通常 也 具有 数据 质量 管理 能 力 。 

以 下 列 出 了 四 个 在 DW2. 0 的 数据 质量 工具 集中 最 基本 也 是 最 主要 的 部 分 (图 18-1): 

。 查找 一 一 分 析 并 且 查 找 数据 异常 。 

。 修复 一 一 清除 一 些 不 遵循 某 些 特定 法 则 的 数据 。 

。 移 除 一 一 ETL 或 者 ELT 工具 能 转换 数据 进而 导入 数据 仓库 。 

。 监视 和 汇报 一 一 监视 和 汇报 数据 质量 。 





一 

- - 
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图 18-1 数据 质量 工具 功能 分 类 


在 第 一 代数 据 仓 库 中 ， 这 四 个 部 分 表现 为 独特 的 专用 工具 类 。 尽 管 它们 中 的 许多 在 
DW2.0 数据 仓库 中 仍然 拥有 自己 具体 的 功能 域 ， 但 是 它们 的 作用 正在 增强 ， 如 今 已 经 在 
邻近 域 中 存在 与 其 他 工具 重 玛 的 功能 。 一 些 工 具 甚至 能 分 析 半 结 才 构 化 数据 工具 的 新 的 功 
能 类 别 已 经 出 现 ， 例 如 ， 语 义 检 查 工 具 ， 蕊 通过 模糊 逻辑 发 现 数据 中 的 规则 。 数 据 质量 
工具 供应 商 之 间 的 合并 与 收购 已 经 导致 了 数据 质量 工具 集 功 能 的 增强 。 在 此 背景 下 ， 
DW2.0 的 设计 师 们 必须 想 出 一 个 能 够 集 查 找 数据 质量 异常 、 修 复数 据 质 量 问题 、 移 除数 
据 和 汇报 /监视 数据 质量 于 一 体 的 工具 集 。 


18.2 数据 分 析 工 具 和 逆向 工程 数据 模型 


是 否 有 可 能 手动 地 完成 数据 分 析 工作 呢 ? 答案 是 肯定 的 。 以 下 就 是 一 些 可 选择 方案 . 

。 公司 可 以 额外 雇用 一 些 用 来 梳理 数据 库 数据 的 工作 人 员 ， 让 他 们 找 出 数据 库 中 的 
重复 记录 并 复制 这 些 记录 。 但 是 通过 这 种 方法 却 不 能 了 解 文件 之 间或 者 文件 /系统 
之 间 的 关系 ， 并 且 这 种 方法 开销 也 很 大 ， 因 为 新 进 的 工作 人 员 都 必须 和 过 培训 和 
监督 以 确保 他 们 能 够 遵循 商业 法 则 。 

。 帮 一 种 方法 是 编写 程序 来 发 现 数据 异常 。 这 种 方法 最 典型 的 特点 就 是 只 能 查找 出 
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已 经 出 现 过 的 问题 。 有 可 能 程序 运行 了 很 长 一 段 时 间 ， 但 是 却 没 有 产生 任何 效 来 。 
这 种 现象 出 现 的 原因 就 是 “对 于 没有 出 现 过 的 问题 ， 我 们 一 无 所 知 ”。 
。 发 现 数据 质量 问题 最 好 的 方法 是 使 用 数据 质量 分 析 工 具 。 
Wcities a ey (图 18-2)。 这 些 工 具 能 使 我 们 
容易 地 分 析 表 中 同一 列 的 数据 值 ， 有 时 间 时 在 一 个 表 的 不 同 列 查 找 ， 有 时 在 不 同 的 表 
a 甚至 是 在 不 同系 统 的 选 定 列 中 查找 这 些 数据 是 否 存 在 某 种 规范 。 这 些 规范 能 够 
使 我 们 发 现 一 些 隐 藏 的 商业 法 则 ， 例 如 ， 每 次 当 第 一 列 中 的 值 为 “a” 时 ， 第 五 列 中 的 值 
法 为 “ww 或 者 





规范 化 
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创建 规范 和 源 到 
CO0B0OL 列 分 析 目的 的 映射 


跨 表 分 析 生成 选项 


图 18-2 数据 分 析 过 程 组 件 


最 好 的 数据 分 析 工 具 比 普通 的 工具 更 进一步 。 当 分 析 完 一 个 系统 中 一 列 的 实际 数据 之 
后 ， 好 的 数据 分 析 工 具 会 提出 一 个 标准 化 模式 。 在 自 下 而 上 分 析 的 基础 上 ， 通 过 从 物理 
数据 库 的 实际 数据 值 中 提取 出 的 数据 可 以 建立 一 个 第 三 范式 数据 模型 。 这 一 提取 出 来 的 
效 据 模 型 是 目 上 而 下 的 数据 建 模 过 程 中 的 一 个 重要 输入 ， 该 建 模 过 程 必须 和 数据 仓库 并 
行 运 行 。 事 实 上 ， 确 保 为 DW2. 0 数据 仓库 开发 高 质量 的 数据 模型 构架 非常 有 助 于 改进 企 
业 数 据 仓 库 的 数据 质量 。 


18. 3 数据 模型 种 类 


那么 在 一 个 好 的 DW2. 0 构架 下 拥有 哪些 数据 模型 呢 ? 在 回答 这 个 问题 之 前 有 必要 做 
一 些 级 别 设 置 。 图 18-3 的 表格 描述 了 在 第 6 章 介绍 的 Zachman 框架 数据 列 中 的 六 行 。 
上 三 行 是 从 技术 独立 的 角度 出 发 的 ， 而 下 三 行 则 是 从 技术 依赖 的 角度 出 发 的 。 第 一 列 
包含 了 一 些 从 计划 者 的 角度 或 者 是 企业 的 范围 和 规模 出 发 得 到 的 数据 对 象 。 第 一 行 中 的 
一 个 数据 对 象 部 能够 继续 分 解 为 主要 的 数据 实体 。 第 二 行 是 从 所 有 者 的 角度 出 发 的 ， 
企业 的 主要 概念 都 通过 一 个 数据 模型 来 表示 ， 这 个 模型 通常 被 称 为 实体 关系 模型 或 者 实 
体 关 系 表 。 第 三 行 从 设计 者 的 角度 出 发 ,包含 了 人 逻辑 数据 模型 。 这 是 一 个 典型 的 完全 第 
三 范式 数据 模型 。 
技术 依赖 数据 表示 位 于 Zachman 框架 数据 列 的 第 三 行 和 第 四 行 的 分 隔 线 以 下 。 第 四 
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对 象 集 ， 包 含 主要 实例 
对 象 表格 
概念 数据 模型 (ERM ) 
逻辑 数据 模型 ( 规范 化 为 3NF ) 
多 维 
物理 模型 < 二 关系 
层次 等 


| | DBMS 专 用 模型 Sybase 或 UDB ( UNIX ) 
数据 定义 语言 ( DDL ) DB2 ( 大 型 机 ) 


a 文件 /表格 
| 





图 18-3 数据 模型 种 类 : Zachman 框架 


行 代表 了 物理 数据 模型 。 在 一 个 数据 仓库 中 可 能 存在 多 个 物理 数据 模型 ， 一 个 为 主要 
的 数据 仓库 服务 ， 其 他 的 为 数据 市 场 服 务 ， 还 有 一 些 物 理 数据 模型 则 为 数据 仓库 环境 
中 的 其 他 一 些 组 件 服务 。 这 个 级 别 的 模型 可 以 是 一 个 包含 关系 模型 、 三 维 模型 和 非 规 
范 的 物理 数据 模型 的 混合 模型 。 必 须 指出 的 是 ， 星 型 模式 和 雪花 模式 实际 上 就 是 物理 
数据 模型 。 

数据 定义 语言 (DDL) 位 于 数据 列 的 第 五 行 。 那 些 能 够 用 来 创建 文件 和 表格 的 指令 
则 位 于 第 六 行 。 

图 18-4 表示 了 各 种 用 来 充实 DW2.0 的 组 件 。 它 们 被 琶 加 在 DW2.0 的 四 个 主要 区 
域 一 一 交互 区 、 整 合 区 、 近 线 区 和 归档 区 上 。 每 一 个 数据 存储 都 必须 能 够 追溯 到 环境 级 、 
概念 级 、 人 逻辑 级 、 物 理 级 、 构 造 级 以 及 实例 级 。 

一 个 好 的 概念 数据 模型 能 够 突出 企业 的 主要 概念 以 及 它们 之 间 的 联系 。 一 个 好 的 第 三 
汇 式 人 逻辑 数据 模型 包含 和 展示 了 所 有 与 业务 实体 、 基 数 以 及 属性 间 的 关系 相关 的 属性 。 
偿 异 数据 模型 给 出 了 一 个 很 强大 的 逻辑 视图 ， 包 含 了 企业 以 及 企业 的 数据 ， 因 此 ， 应 该 
作为 第 三 种 模型 类 型 一 一 物理 数据 模型 的 起 始点 。 

DW2.0 整合 区 的 物理 数据 模型 之 间 在 结构 上 存在 很 大 区 别 。 它 们 有 可 能 是 适用 于 数 
据 仓 库 枢 纽 的 正常 化 和 近 正 常 化 模型 ， 也 有 可 能 是 适用 于 数据 市 场 的 星 型 和 雪花 型 模式 
异型 。 还 有 一 些 数据 模型 结构 适用 于 探索 数据 仓库 、 数 据 挖掘 仓库 、 可 运行 的 数据 库 以 
及 “oper marts”( 可 运行 的 数据 集 市 )。 那 些 需要 被 传递 到 近 线 区 的 数据 必须 离 第 三 范式 
结构 越 近 越 好 。 在 数据 进入 归档 区 时 进行 重 构 是 一 件 再 正常 不 过 的 事 。 

数据 模型 间 多 方位 的 溯源 对 DW2. 0 数据 环境 来 说 非常 重要 。 它 必须 能 够 浏览 来 自 一 
个 从 亿 辑 模型 甚至 是 更 远 的 概念 模型 备份 的 物理 模型 。 同 样 地 ， 它 也 必须 能 够 自 上 而 下 
地 移动 ， 从 概念 模型 到 俱 辑 数据 模型 ， 再 到 物理 数据 模型 。 一 整套 相互 关联 的 模型 从 提 
局 企业 的 数据 质量 、 连 接 业务 含义 和 结构 化 的 业务 规则 ， 到 形成 数据 实体 和 属性 的 物理 
实例 需要 经 过 一 段 漫 长 的 过 程 。 

那么 完 葛 在 DW2. 0 数据 构架 中 哪个 才 是 关键 数据 模型 呢 ? 图 18-5 所 示 的 图 表 回 答 了 
这 个 问题 ， 并 且 列 出 了 所 有 在 下 一 代数 据 仓库 DW2. 0 中 用 到 的 关键 数据 模型 。 


178 和 锚 18 哩 





STRATEGIC Logical Architecture Schematic 
(Zachman Row 3 - Technoliogy independeni) 


SOA 


"i 








设 训 W、SW 和 ETL 
er da ee 近 线 和 归档 


be 


数据 仓库 物理 数据 模型 数据 集 市 物理 数据 模型 
图 18-5 第 二 代数 据 仓库 DW2. 0 中 的 数据 模型 种 类 


每 一 个 源 系 统 都 是 逆向 创建 逻辑 模型 的 。 通 常 一 个 企业 的 逻辑 数据 模型 被 用 作 数 据 仓 
库 逻 辑 数据 模型 和 数据 市 场 逻 辑 数 据 模 型 的 基础 ， 它 来 自 概念 模型 。 同 时 适用 于 数据 仓 
库 和 数据 市 场 的 物理 数据 模型 则 来 自 不 同 的 逻辑 数据 模型 。 

接 下 来 更 次 入 地 讲解 企业 的 逻辑 数据 模型 与 其 他 逻辑 数据 模型 之 间 的 关系 。 例 如 ， 图 
18-6 所 示 的 数据 仓库 的 逻辑 数据 模型 和 企业 的 逻辑 数据 模型 之 间 的 关系 。 
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企业 逻辑 数据 模型 





数据 仓库 逻辑 数据 模型 


图 18-6 企业 与 数据 仓库 逻辑 数据 模型 的 比较 


图 表 中 的 大 算 形 代表 Zachman 框架 中 第 一 列 第 三 行 的 单元 ， 即 逻 辑 数据 模型 ( LDM) 
单元 。 Lachman 框架 中 的 每 一 个 单元 都 有 一 定 的 “尺寸 范围 ”和 “详细 尺寸 ”， 它 们 分 别 
用 LDM 单元 顶部 的 薄 横 向 矩形 和 LDM 单元 旁边 的 溥 垂直 矩形 来 表示 。 对 企业 逻辑 数据 模 
型 中 的 数据 创建 一 个 企业 范围 的 视图 是 一 种 值得 提倡 的 方法 。 一 个 企业 人 逻辑 数据 模型 涵 
兽 了 企业 的 整个 范围 ， 但 却 并 不 那么 详细 。 

一 个 模型 ， 例如 整个 世界 的 所 有 属性 往往 会 花费 很 多 的 时 间 和 人 金钱 。 因为 企业 逻辑 数 
据 模型 只 描述 了 企业 的 主要 属性 和 这 些 属性 之 间 的 关系 。 

数据 仓库 每 一 次 连续 的 迭代 都 是 逻辑 数据 模型 驱使 的 ， 而 逻辑 数据 模型 的 建立 又 要 归 
时 于 办 代 所 需要 的 实例 。 拥有 一 个 企业 逻辑 数据 模型 的 好 处 就 是 可 以 不 需 损 坏 逻 辑 数据 
监 图 就 允许 该 类 渐进 发 展 的 发 生 。 很 多 数据 质量 问题 产生 的 原因 都 可 以 归咎 于 不 适当 的 、 
不 协调 的 逻辑 数据 建 模 。 除 了 企业 逻辑 数据 模型 找 不 到 其 他 方法 将 问题 数据 集中 起 来 ; 
持续 下 去 将 导致 完全 的 孤立 ， 从 而 出 现 数据 宛 余 和 数据 松散 。 


18. 4 数据 分 析 不 一 致 对 自 上 而 下 建 模 的 挑战 


在 图 18-7 的 例 1 中 ， 通过 数据 分 析 发 现 的 各 种 数据 不 一 致 问题 都 保存 在 一 个 文件 中 。 
在 日 上 而 下 的 数据 建 模 过 程 中 ， 一 个 叫 自 上 而 下 的 查找 自 下 而 上 的 查找 
做 “Party” 的 实体 被 定义 成一 个 个 人 或 en untGmer 
者 单位 。 子 类 型 “Individual” 包 含 了 一 * Party ldentifier 
个 属性 “Gender”， 其 中 Geénder 全 含 了 男 一 一 一 一 一 一 
和 女 两 个 变量 。 同 时 ,该 团队 正在 使 用 





Gender Values 
数据 分 析 工 具 对 源 系统 中 的 实际 数据 进 1= 男 
行 分 析 。 数 据 分 析 工 具 发 现 有 七 个 值 已 
经 被 Gender 属性 域 使 用 过 。 这 很 快 就 能 4= 女 老板 
成 为 该 域 因为 某 种 目的 使 用 了 该 属性 而 a 
不 是 单纯 地 反映 个 人 的 性 别 信息 的 证 据 。 7= 少数 男 老板 


类 似 Cender 属性 的 多 目的 使 用 以 及 它们 en 
隐 含 的 实体 都 能 够 成 为 向 逻辑 数据 模型 M= 男 


F < 去 
次 加 相应 实体 和 属性 的 基础 。 
: 图 18-7， 例 1: 在 一 个 文件 内 查找 数据 不 -一致 问题 


A* 
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图 18-8 的 例 2 展示 了 两 个 或 者 多 个 文件 中 的 数据 不 一 致 是 如 何 改变 逻辑 数据 模型 的 
创建 方式 的 。 在 自 上 而 下 的 建 模 过 程 中 ， 一 个 叫做 “Produet” 的 实体 应 该 被 创建 。 产 品 
序列 号 则 被 定义 为 一 个 10 位 数字 类 型 的 属性 。 在 接 下 来 分 析 一 系列 的 源 系统 时 ， 它 能 成 
为 证 明 只 有 支票 账户 号 是 10 位 数字 类 型 而 信用 卡 账户 号 则 是 16 位 数据 类 型 的 证 据 。 迎 辑 
模型 现在 能 够 将 产品 序列 号 转化 位 一 个 16 位 的 数字 类 型 。 


自 上 而 下 的 查找 自 下 而 上 的 查找 


Party 
se Party Identifier 









Customer Gender 


Product Identifier 是 一 个 Checking Account Number = 
10 位 的 数值 类 型 10 位 数值 类 型 
例如 : 0056793214 例如 : 0123456789 
Credit Card Account Number = 
16 位 数值 类 型 


例如 : 0987 6543 2112 3456 
图 18-8 例 2: 跨 文件 查找 数据 不 一 致 问题 


因此 建议 的 最 佳 做 法 是 将 受 数据 分 析 工 具 控 制 的 自 下 而 上 的 数据 建 模 与 严格 的 自 上 而 
下 的 数据 建 模 过 程 结合 ， 这 样 才能 为 下 一 代数 据 仓库 构造 出 最 好 的 数据 构架 。 一 个 类 似 
图 18-9 中 撞 绘 的 坚实 的 数据 构架 是 提高 数据 质量 的 关键 因素 。 


人 


正 向 工程 
完全 可 追踪 性 


企业 模型 
( 自 上 而 下 建 模 ) 


技术 名 称 到 业务 名 称 / 
数据 仓库 数据 库 








图 18-9 导入 DW2.0 中 的 源 数 据 一 一 一 个 坚实 的 数据 构架 的 组 成 
18.5 总 结 


吕 复 用 性 是 第 二 代数 据 仓库 取得 成 功 的 一 个 关键 因素 ， 而 支撑 着 整个 程序 的 数据 模型 
的 质量 问题 应 该 得 到 更 多 的 关注 。 所 构造 的 模型 必须 准确 地 反映 业务 ， 并 且 能 够 在 程序 
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的 升级 版 本 中 重复 使 用 。 

最 基础 的 模型 是 企业 数据 模型 。 在 传统 方法 中 ， 这 种 模型 是 使 用 自 上 而 下 的 方式 ， 通 
过 利用 共同 的 需求 计划 和 应 用 设计 技术 导出 的 。 这 些 技术 能 够 很 快 得 到 一 个 很 好 的 模型 
比较 。 但 是 缺点 也 同样 明显 ， 它 只 建立 在 管理 人 员 和 高 级 分 析 师 所 分 析出 的 商业 法 则 上 。 
在 实际 操作 中 ， 使 用 数据 的 系统 可 能 拥有 一 些 不 同 规则 的 集合 。 这 是 因为 这 些 系统 通常 
已 经 使 用 了 20 年 了 (甚至 更 久 ) ， 当 初 对 数据 所 作 的 改变 未 被 保存 ， 而 大 多 数 情 况 下 ， 
当初 改变 数据 的 人 都 已 经 不 在 公司 任职 了 。 

揭 锯 数据 真实 情况 的 唯一 方法 是 逆向 将 数据 导入 一 个 抽象 的 逻辑 数据 模型 。 第 一 代数 
据 仓 库 在 过 去 曾经 尝试 实现 过 ， 但 是 当时 可 用 的 工具 有 限 。 现 在 ， 一 组 新 的 工具 集 已 经 
出 现 一 数据 分 析 工 具 。 这 些 工 具 对 于 逆向 控制 数据 以 及 自 下 而 上 构造 数据 模型 来 说 是 -… 
个 理想 的 帮手 。 当 以 这 种 方式 构造 一 个 模型 时 ， 它 完全 是 建立 在 实际 数据 内 容 的 基础 上 。 
因而 发 生 错误 的 概率 以 及 在 数据 建 模 过 程 中 的 遗漏 都 能 减少 。 这 种 自 下 而 上 的 模型 被 当 
作 目 上 而 下 构造 模型 的 输入 ; 在 效果 上 ， 自 下 而 上 模型 用 以 挑战 由 企业 草拟 的 自 上 而 下 
模型 。 

企业 数据 模型 并 不 是 在 一 个 成 功 的 商业 智能 实施 中 所 必需 的 唯一 的 数据 模型 。 较 好 的 
建议 是 将 Zachman 框架 的 数据 列 中 定义 的 所 有 模型 都 构造 出 来 。 


第 19 章 DW2.0 和 非 结构 化 数据 


据 估计 ， 在 企业 里 有 80% 的 数据 是 非 结 构 化 文本 。 但 不 幸 的 是 ， 当 前 计算 机 上 运行 
的 技术 都 是 致力 于 处 理 结构 化 、 可 重复 的 数据 的 。 这 就 导致 在 企业 中 做 决策 时 没有 利用 
到 一 些 有 价值 的 信息 ， 文 本 中 的 有 用 信息 没有 成 为 决策 过 程 中 一 个 重要 部 分 。 


19. 1 DW2.0 和 非 结构 化 数据 


致力 于 下 一 代数 据 仓库 的 DW2. 0 构架 意识 到 在 非 结 构 化 的 文本 信息 中 存在 有 价值 的 
信息 ， 必 须 对 文本 做 一 些 工作 以 使 它 适合 分 析 处 理 。 

出 发 点 就 是 文件 本 身 。 图 19-1 显示 了 各 种 形式 的 文本 ， 如 电子 邮件 、 文 档 、 医 疗 记 
录 、 协 议 、 电 子 表格 以 及 声音 副本 等 。 











John let's do | When can | expect the package. on 
一 一 | Claudia is getting to be pretty upset. Fe 


re are my drawir ee en do you think you might be arriving? | \ 
Pe sa dt hy ynn 


图 19-1 文档 、 电 子 表格 、 电 子 邮 件 一 一 常见 的 非 结 构 化 数据 类 型 


19.2 文本 读 取 


为 分 析 人 处理 而 准备 非 结 构 化 数据 的 过 程 的 第 一 步 就 是 读 入 文本 。 文 本 存在 于 多 种 格式 
中 ， 这 些 格 式 也 可 能 需要 读 入 。 

图 19-2 描述 了 非 结 构 化 源 文本 的 读 入 。 

当 原 始 的 源 文本 被 读 人 以 后 ， 下 一 步 就 是 要 .Doc 
准备 这 些 数 据 以 输入 数据 库 。 文 本 的 准备 是 一 


.Pdf ss 
个 复杂 的 处 理 过 程 。 有 一 些 很 好 的 理由 表明 文 ~ 二 加 


.Txt 






本 必须 被 处 理 : Excel 
。 非 结构 化 数据 需要 与 关系 型 格式 相 匹配 。 2 
。 非 结构 化 数据 必须 被 “整合 ” ， 这 样 分 析 。“ 图 192 第 一 个 任务 是 读 非 结构 化 数据 

处 理 才 有 意义 。 如 果 仅 将 原始 文本 简单 
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地 强制 输入 数据 库 ， 就 会 导致 文本 不 能 被 有 效 甚至 有 意义 地 分 析 。 


19. 3 在 哪里 进行 文本 分 析 处 理 


现在 即将 做 一 个 重要 的 战略 决策 ， 就 是 在 什么 位 置 进行 文本 分 析 处 理 。 主 要 有 两 个 可 
选择 的 位 置 ， 第 一 个 就 是 非 结构 化 数据 所 处 的 位 置 一 一 非 结 构 化 环境 ， 另 一 个 就 是 结构 化 
环境 。 在 结构 化 环境 中 进行 文本 分 析 要 求 非 结 构 化 文本 被 读 人 、 整 合 、 处 理 及 存储 在 结 
构 化 环境 中 。 

毫 无 疑问 ， 读 人 、 整 合 、 处 理 非 结 构 化 文本 数据 是 一 个 艰巨 的 任务 。 但 是 ， 当 非 结 构 
化 文本 经 过 处 理 并 存储 在 结构 化 环境 中 时 ， 就 会 出 现 很 多 机 会 。 当 非 结 构 化 数据 被 整合 
并 存储 在 结构 化 环境 中 时 ， 就 可 以 使 用 标准 的 分 析 技 术 。 

一 坚 组 织 机 构 已 经 花 了 数 百 万 美元 来 培训 员工 和 用 户 ， 目 的 就 是 在 结构 化 技术 的 基础 
上 创建 一 个 分 析 环 境 。 结 构 化 环境 中 已 经 有 了 数据 库 技术 、 智 能 商务 、ETL、 统 计 性 处 理 
于， 利用 这 些 已 经 存在 的 分 析 环 境 是 非常 有 意义 的 。 现 在 所 需 的 就 是 读 取 与 整合 本 文 信 
县 的 能 力 ， 文 本 ETL 的 出 现 就 是 为 了 实现 这 一 目的 。 

所 以 ， 选 择 一 个 环境 来 完成 文本 分 析 处 理 是 比较 容易 的 。 结 构 化 环境 就 是 完成 分 析 处 
理 最 好 的 地 方 。 


19.4 文本 整合 


整合 ”文本 的 过 程 要 在 将 文本 存储 在 数据 库 中 之 前 完成 ， 该 过 程 有 很 多 不 同 的 方 
面 。 为 了 将 文本 存 人 数据 库 并 作为 DW2. 0 数据 仓库 的 一 部 分 ， 对 其 进行 后 续 分 析 所 需 的 
准备 文本 过 程 包含 了 多 个 步骤 。 最 重要 的 有 : 

。 向 单 编 辑 
移 除 无 用 词 
同义词 替换 或 串联 
同形 异 义 解析 
主题 性 聚集 
外 部 术语 表 / 分 类 覆盖 
分 词 
符 换 拼写 解析 
。 外 语 自 适应 
。 和 直接 或 间接 搜索 帮助 
接 下 来 是 对 这 些 非 结构 化 数据 各 个 方面 的 描述 。 


19.5 简单 编辑 


为 分 析 处 理 准 备 非 结构 化 文本 的 第 一 步 是 对 格式 、 标 点 和 字体 等 做 一 些 简 单 的 编辑 工 
作 。 这 种 简单 编辑 是 非常 重要 的 ， 因 为 将 来 的 分 析 性 搜索 不 需要 被 印刷 版 式 的 差异 所 阻 
碍 。 例 如 ， 如 果 要 对 “bill inmon” 进 行 搜索 ， 则 实际 搜索 还 需要 找 出 “Bill Inmon ， 尽 
时 这 两 个 单词 的 首 字母 是 大 写 的 。 图 19-3 描述 了 为 分 析 处 理 而 从 非 结构 化 文本 中 消除 格 
式 、 字 体 和 标点 的 情况 。 
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Before (3 


(Lincoln stood and said( “Pour score and seven years agd 9ur forefathers . ~ 
After 
lincoln stood and said four score and seven years ago our forefathers ... 





图 19-3 基本 的 标点 符号 、 大 写 、 格 式 、 字 体 和 其 他 被 视 为 搜索 障碍 等 方面 的 移 除 


19.6 无 用 词 


下 一 步 要 做 的 就 是 消除 无 用 词 。 无 用 词 是 一 个 有 助 于 语言 平滑 流畅 的 词 ， 但 其 本 身 却 
不 包含 什么 信息 和 意义 。 一 些 典 型 的 无 用 词 如 下 : 
-个 《8) 
e 和 (and) 
那 〈the ) 
是 (was) 
那个 (that) 
哪个 (which) 
到 (to) 
e 从 (from) 
图 19-4 描述 了 无 用 词 的 消除 。 


Before 
Lincoln steed-and eetd - “Four Score errt seven years age’-eur-forefathers ...” 


After 
Lincoln Four score seven years forefathers . . . 





图 19-4 删除 无 用 的 单词 


19.7 同义词 替换 


另 一 个 在 文本 整合 过 程 中 可 选择 的 步骤 是 同义词 替换 。 同 义 词 替 换 用 来 合理 化 使 用 不 
同 术语 的 文本 ， 使 其 都 使 用 单一 的 术语 。 同 义 词 替 换 使 用 一 个 标准 用 词 来 蔡 换 其 他 所 有 
和 其 有 相同 含义 的 词 。 前 后 一 致 地 使 用 同一 种 术语 是 保证 可 靠 地 、 可 重复 地 查询 数据 仓 
库 中 的 非 结 构 化 数据 的 过 程 中 的 重要 一 步 。 图 19-5 解释 了 同义词 蔡 换 。 


Before 
Lincoln stood and said - “Four score and seven years ago, our forefathers . . ” 


After 
Lincoln arcse and said - “Eighty seven years ago; Our ancestors ,..” 





图 19-5 同义词 替换 
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19.8 同义词 串联 

同义词 串联 是 相对 于 同义词 替换 的 另 一 种 选择 。 在 同义词 串联 中 ， 不 是 用 一 个 标准 用 
词 来 替换 同义词 ， 而 是 将 标准 用 词 插入 到 所 有 出 现 的 同义词 后 面 或 跟 它们 串联 起 来 。 图 
19-6 解释 了 同义词 串联 。 


Before 
Lincoln stood and said -“Four score and seven years ago, our forefathers . . .” 
After 


Lincoln stood arose and said - “Four score and eighty seven years ago, 
our forefathers ancestors ..° 





图 19-6 同义词 串联 


19.9 同形 异 义 解析 


同形 异 义 解析 跟 同 义 词 串 联 和 同义词 替换 正好 相 皮 。 同 形 异 义 解析 用 来 淤 清 那 些 有 多 
种 含义 的 单词 或 短语 ， 用 这 些 单词 实际 表示 的 意思 来 替换 或 覆盖 出 现在 文本 中 的 单词 或 
短语 。 图 19-7 解释 了 同形 异 义 解析 。 


efore 
“The heart doctor recognized a ha immediately He sat down . .” 
“The endocrinologist saw the first patient with ha and prescribed a therapy...” 
“The small town doctor saw she had a terrific ha after the horse kicked her. ..” 


After 
“The heart doctor recognized a heart attack immediately. He sat down ...” 
“The endocrinologist saw the first patient with Hepatitis A and prescribed a therapy. . .” 
“The small town doctor saw she had a terrific head ache after the horse kicked her _， 





图 19-7 同形 异 义 解析 


19. 10 建立 主题 


文本 整合 后 需要 做 的 一 个 有 趣 且 有 用 的 针对 文本 的 事情 是 产生 一 个 文本 的 “ 聚 类 ” 
而 聚 基文 本 则 生成 “主题 ” 。 在 文本 聚 类 中 ， 单 词 和 短语 根据 它们 出 现 的 次 数 和 彼此 间 的 
形似 度 而 从 逻辑 上 被 聚合 在 一 起 。 

归 类 同样 也 能 产生 一 个 术语 表 或 分 类 法 。 这 个 术语 表 和 分 类 法 被 称 为 “内 部 术语 表 ” 
或 “内 部 分 类 法 ”， 因 为 它 是 从 系统 内 部 的 文本 产生 的 。 图 19-8 显示 了 文本 聚 类 和 生成 
的 主题 。 


19. 11 外 部 术语 表 / 分 类 法 


里 然 内 部 术语 表 或 分 类 法 是 很 有 用 的 ， 但 外 部 术语 表 和 分 类 法 也 同样 很 有 用 。 外 部 术 
次 表 和 分 类 法 可 以 来 自任 何 地 方 ， 如 书籍 、 索 引 、 网 络 等 。 外 部 术语 表 和 分 类 法 可 表示 
任何 事情 ， 能 用 于 文本 上 添加 一 个 结构 。 文 本 可 被 读 人 系统 ， 然 后 可 作 二 个 比较 来 确定 
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该 文本 是 否 属于 或 与 外 部 术语 表 和 分 类 法 相关 。 
图 19-9 显示 了 一 些 外 部 术语 表 和 分 类 法 。 





图 19-8 一 些 主题 和 它们 的 描述 符 图 19-9 ”一些 外 部 分 类 法 
19. 12 分 词 


分 词 是 文本 整合 及 为 文本 分 析 准 备 文本 的 另 一 个 步骤 。 当 文本 能 简约 到 希腊 文 或 拉丁 
文 词根 时 ， 就 要 对 其 进行 分 词 。 如 果 可 以 识别 词根 ; 那么 分 词 就 是 非常 重要 的 。 换 一 种 
说 法 就 是 ， 如 果 单 词 被 逐 字 对 比 ， 相 关 的 单词 就 不 会 像 它 们 应 该 的 那样 被 聚合 在 一 起 。 
图 19-10 显示 了 单词 和 它们 的 词根 。 


19. 13 替换 拼写 


如 果 想 要 有 效 地 完成 搜索 ， 就 需要 包含 对 可 替换 的 拼写 的 需求 和 实践 。 有 些 单词 有 可 
替换 的 拼写 方式 ， 许 多 名 字 也 有 其 他 的 拼写 方式 。 举 一 个 包含 可 替换 拼写 的 作用 的 例子 ， 
假设 正在 搜索 “Osama Bin Laden”， 如 果 “Usama Bin Laden” 没有 被 搜索 到 将 会 是 一 件 很 
遗憾 的 事 ， 因 为 这 个 名 字 有 不 同 的 拼写 方式 。 图 19-11 解释 了 为 什么 要 识 辨 出 同一 事物 的 
不 同 拼写 方式 。 


Terrif 
— terrifies 
Mav 一 terrified 
~ moye "temilying 
ee terrify 
— moved 


osama bin laden 
usama bin laden 
osama ben laden 
usama ben laden 


-moving Dress 

— Mover — dresses 
— dressing 
— dressed 
— dresser 


osama bin ladeen 
usama bin ladeen 
osama ben ladeen 
usama ben ladeen 





图 19-10 .对 单词 进行 分 词 图 19-11 相同 名 字 或 单词 的 不 同 拼 法 
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19. 14 跨 语 言 的 文本 
文本 分 析 男 一 种 有 用 的 特点 就 是 运用 多 种 语言 的 能 力 。' 图 19-12 显示 了 不 同 的 语言 。 
19. 15 直接 搜索 


文本 分 析 还 有 男 一 种 重要 的 特征 ， 就 是 支持 ”The girl ran inside her house 
不 同 种 类 搜索 的 能 力 。 文 本 整合 需要 为 这 种 特征 sya 
做 好 准备 ， 其 中 一 种 需要 支持 的 搜索 就 是 直接 搜 
索 。 直 接 搜索 的 典型 代表 就 是 Yahoo 或 Google。 将 
参数 传 给 搜索 引擎 ， 然后 该 引擎 查找 所 有 出 现 搜索 参数 的 情况 。 图 19-13 描述 了 直接 
搜索 。 


19. 16 间接 搜索 


太一 种 搜索 类 型 是 间接 搜索 。 在 间接 搜索 中 ， 搜索 参数 同样 传 给 了 搜索 引擎 ， 但 却 并 
没有 对 其 进行 搜索 。 相 反 ， 间 接 搜 索 是 搜索 任何 与 该 参数 相关 的 东西 。 例如 ， 图 19-14 描 
述 的 对 “Sarbanes Oxley” 的 间接 搜索 。 该 搜索 并 没有 去 查找 “Sarbanes Oxley”， 而 是 去 查 
找 与 Sarbanes Oxley 相关 的 文本 。 


Este es un pobrecito 





图 19-12 不 同 语言 的 运用 


查找 所 有 间接 提 到 Sarbanes Oxley 的 内 容 


查询 一 一 
查找 所 有 提 到 Sarbanes Oxley ( 萨 班 斯 法 案 ) 的 内 容 





图 19-13 ”直接 搜索 图 19-14 间接 搜索 


19. 17 术语 


在 以 分 析 处 理 为 目的 的 文本 处 理 过 程 中 有 个 很 大 的 间 题 ， 即 术语 的 处 理 。 术 语 之 所 以 
不 一 个 问题 ， 是 因为 语言 常 以 术语 的 形式 表达 。 设 想 人 的 身体 。 对 人 类 身体 的 任何 一 个 
部 分 都 有 多 达 20 种 方式 可 以 指出 它 。 一 个 医生 用 这 一 套 术语 ， 另 一 个 医生 用 那 一 套 术 
语 ， 而 护士 又 用 男 一 套 术语 。 这 些 不 同 的 人 都 在 谈论 同一 件 事 ， 然 而 却 用 不 同 的 语言 

如 果 想 要 对 文本 进行 分 析 处 理 ， 就 必须 有 对 术语 问题 的 解决 方法 。 最 终 的 单词 和 短语 
的 文本 数据 库 必须 同时 有 一 般 性 和 具体 性 的 存储 。 用 于 文本 分 析 的 最 终 文 本 数据 库 必 须 
要 有 原始 的 医生 或 护士 用 过 的 具体 的 单词 ， 也 要 有 整个 分 析 团 体 都 能 理解 的 一 般 术 语 。 
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如 果 一 个 组 织 不 解决 术语 的 问题 ， 那 就 不 可 能 完成 有 效 的 文本 分 析 处 理 。 
19. 18 ” 半 结 构 化 数据 / 值 = 名 称 数据 


非 结 构 化 数据 有 不 同 的 种 类 。 最 简单 的 形式 就 是 文档 中 的 文本 。 在 文档 的 文本 中 ， 单 
词 和 短语 都 是 没有 顺序 和 结构 的 ， 一 个 非 结 构 化 文档 仅仅 是 个 非 结构 化 文档 。 

然而 ， 文 本 文档 还 有 其 他 的 形式 。 在 某 些 情况 下 ， 文 档 的 作者 会 给 出 一 个 可 以 推断 出 
来 的 文档 结构 。 一 个 简单 的 例子 是 毫 饪 书 ,在 一 本 豪 饪 书 中 有 很 多 毫 饪 方法 。 这 是 一 个 
文档 ,里面 有 隐 含 的 开始 和 结束 。 一 个 豪 饪 法 结束 就 是 男 一 个 的 开始 。 

很 多 时 候 ， 有 必要 将 书 中 隐 含 的 结构 映射 到 文本 分 析 数 据 库 上 。 在 茶 些 情况 下 ， 这 是 
一 个 简单 且 显 而 易 见 的 事 。 在 另 一 些 情况 下 ， 如 何 映射 却 一 点 都 不 明显 。 

男 一 种 在 DW2. 0 环境 下 需要 特殊 处 理 的 非 结 构 化 数据 形式 是 一 种 被 称 为 “ 值 = 名 
字 ” 的 数据 形式 。 要 理解 这 种 类 型 的 数据 ， 试 想 一 堆 个 人 简历 。 在 每 份 个 人 简历 上 神 能 
找到 公共 的 信息 ， 如 名 字 、 地 址 、 教 育 背 景 、 工 资 等 。 能 够 理解 在 非 结 构 化 数据 中 哪 种 
数据 正 被 考虑 是 很 重要 的 。 换 句 话 说， 对 于 “名 字 一 Bi Inmon”， 系 统 能 很 方便 地 分 辨 出 
“名 字 ” 是 一 个 很 重要 的 域 ， 县 “Bil Inmon” 是 那个 被 命名 的 人 。 这 种 能 力 意味 着 文本 
能 被 读 入 ， 单词 能 按 符号 而 不 是 按 字 面 找 出 。 这 种 能 按 符 号 感知 单词 的 能 力 对 建立 文本 
分 析 数 据 库 是 很 重要 的 。 


19. 19 ”准备 数据 所 需 的 技术 


完成 非 结构 化 文本 整合 的 技术 通常 被 称 为 文本 ETL 技术 ， 图 19-15 对 其 在 较 高 层次 进 
行 了 描述 。 


无 用 词 ” 同 义 / 同 形 异 义 字 nn 





2 
分 词 算法 DR 
Oracle 


NT SQL Server 
图 19-15” 非 结 构 化 数据 怎样 转化 成 关系 数据 库 


19. 20 关系 数据 库 


当 非 结构 化 文本 已 准备 好 进行 分 析 处 理 时 ， 该 文本 被 置 于 一 个 关系 数据 库 中 。 该 关系 
数据 库 可 能 会 被 各 种 不 同 工 具 访问 和 分 析 ， 比 如 商业 智能 工具 。 图 19-16 显示 了 在 非 结构 
化 数据 上 的 智能 商务 的 利用 。 
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19. 21 结构 化 / 非 结 构 化 连接 


当 非 结构 化 关系 数据 库 建立 以 后 ， 它 将 被 连接 到 结构 化 数据 库 ， 从 而 形成 组 织 机 构 的 
DW2. 0 基础 。 
图 19-17 描述 了 两 种 不 同类 型 的 数据 库 之 间 连 接 的 建立 过 程 。 





Business Objects 
Cognos 

Micro Strategy 
Crystal Reports 
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图 19-16 一 旦 数据 处 于 关系 型 格式 ， 它 便 几 乎 可 图 19-17 建立 结构 化 数据 和 非 结 构 化 
以 被 任意 的 商业 智能 工具 访问 和 分 析 数据 之 间 的 连接 


19. 22 企业 用 户 的 观点 


如 来 说 有 与 企业 用 户 最 接近 的 数据 ， 那 就 是 非 结 构 化 文本 数据 了 。 非 结构 化 文本 数据 
构成 了 终端 用 户 的 日 常 商 务 生活 。 所 以 当 非 结构 化 文本 数据 要 被 归 人 DW2.0 环境 时 ， 终 
问 用 户 需 要 高 度 参与 。 

企业 用 户 参 与 无 用 词 的 具体 说 明 。 他 们 还 参与 确定 术语 以 及 选择 在 DW2. 0 中 用 哪 种 
语言 。 终 端 用 户 还 参与 分 词 一 一 不 管 这 是 否 有 用 。 另 外 ， 终 端 用 户 还 参与 确定 非 结 构 化 文 
本 数据 的 来 源 ， 如 电子 邮件 、 报 告 、 协 议 等 。 

简 而 言 之 ,企业 用 户 在 很 大 程度 上 参与 了 非 结 构 化 文本 数据 的 获取 、 准 备 、 输 入 
DW2.0 环境 等 各 方面 。 

通常 ,企业 用 户 在 DW2. 0 的 结构 化 部 分 的 设计 中 只 是 被 动 地 参与 。 但 对 DW2. 0 的 非 
结构 化 文本 部 分 却 正好 相反 。 例 如 ， 企 业 用 户 很 大 程度 上 参与 了 文本 ETL 转换 的 详细 规 
格 说 明 。 


19. 23 ”总 结 


非 结 构 化 数据 是 DW2. 0 数据 仓库 的 一 个 重要 组 成 部 分 。 
非 结 构 化 数据 必须 被 读 人 和 整合 到 DW2. 0 环境 中 。 非 结构 化 数据 的 整合 过 程 包括 但 
不 仅 限于 以 下 内 容 : 
。 移 除 标点 、 字 体 等 阻碍 数据 访问 和 分 析 的 东西 。 
。 管理 可 相互 替代 的 拼写 。 
分 词 。 
无 用 词 管理 。 
内 部 主题 和 分 类 法 的 建立 。 
。 同义词 替换 。 
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。 同义词 串联 。 

。 同形 异 义 解析 。 

。 外 部 分 类 /术语 表 分 类 。 

当 聚 集 和 整合 文本 化 数据 以 后 ， 便 建立 关系 数据 库 以 支持 分 析 处 理 。 整 合 以 后 ， 文 本 
数据 以 关系 型 格式 放置 ， 并 建立 一 个 关系 数据 库 。 然 后 这 个 关系 数据 库 就 可 以 进行 商业 


和 贸 能 处 理 。 最 后 ， 这 个 非 结 构 化 关系 数据 库 要 和 在 DW2. 0 数据 仓库 中 的 结构 化 数据 库 进 
行 连接 。 


第 20 章 DW2.0 与 记录 系统 


DW2. 0 数据 仓库 中 的 大 部 分 数据 集 的 建立 都 是 以 操作 型 或 旧 的 应 用 系统 为 基础 的 。 
图 20-1 展示 了 这 类 数据 源 。 

写 于 许多 年 前 并 且 很 多 情况 下 无 文档 记录 ， 最 初 的 数据 就 是 从 这 样 的 操作 应 用 环境 中 
进入 企业 环境 ， 并且 数 据 常 以 事务 执行 的 副产品 的 形式 进入 交互 区 。 

图 20-2 展示 了 旧 操 作 环 境 中 的 典型 要 素 。 
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图 20-1 操作 型 / 旧 的 系统 环境 图 20-2 操作 型 环境 中 的 元 素 


旧 操 作 环境 中 的 要 素 种 类 有 程序 、 报 表 、 处 理 器 、 文 件 和 数据 库 。 

由 于 进入 数据 仓库 中 的 大 部 分 数据 是 在 操作 环境 中 产生 的 ， 所 以 要 对 它 格外 关注 。 最 
终 获 取 的 数据 要 尽 可 能 的 准确 、 有 及时、 完整， 故 需 定义 “记录 源 ” 数据 系统 ， 经 确认 的 
记录 源 系统 是 最 佳 的 数据 源 。 

为 DW2.0 寻找 最 佳 的 数据 源 与 数据 质量 之 间 有 非常 重要 的 联系 。 为 了 得 到 好 的 数据 
质量 ， 人 们 所 进行 的 最 重要 的 一 步 是 谨慎 地 选择 记录 系统 。 也 就 是 说 ， 如 果 根 本 没有 选 
择 或 是 选择 不 够 正确 的 话 ， 就 会 反映 出 较 差 的 数据 质量 。 

寻找 最 佳 数据 源 应 从 旧 操 作 环 境 中 的 应 用 开 
始 。 图 20-3 描绘 了 那些 应 用 。 

许多 企业 的 操作 型 应 用 系统 环境 受 其 内 部 发 
生 的 事务 处 理 的 约束 。 当 企业 的 操作 型 事务 处 理 
发 生 时 ， 尤其 是 有 大 量 事务 处 理 的 时 候 ， 操 作 环 
境 是 不 能 受 干扰 的 。 在 这 种 状况 下 ， 操 作 环 境 可 
能 被 认为 是 娇气 的 ， 在 业务 周期 高 峰 期 无 法 执行 
大 量 的 批量 处 理 。 问 题 是 许多 环境 中 ， 操 作 处 理 
过 程 窗口 都 很 大 ， 往 往 要 持续 很 长 时 间 ， 远 远 超 
过 上 午 8 点 至 下 午 5 点 这 一 时 间 段 。 

图 20-4 显示 了 在 有 些 时 刻 ， 旧 环境 中 的 交 图 20-3 旧 环 境 是 一 堆 未 整合 的 应 用 
易 处 理会 导致 操作 环境 无 法 为 其 他 任何 请 求 提供 
服务 。 
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图 20-4 “操作 型 环境 通常 受 联机 事务 处 理 〈《OLITP) 所 需 的 规则 的 约束 


还 有 一 些 其 他 的 与 旧 操 作 环 境 相 关 的 局 限 。 其 中 之 一 是 ， 很 多 情况 下 ， 建 立 起 来 旧 的 
操作 环境 后 没有 相应 的 文档 ， 或 是 没有 最 新 的 文档 。 而 再 返回 去 查找 该 操作 型 应 用 是 干 
什么 用 的 可 不 是 件 容易 的 事 。 图 20-5 说 明 存在 着 很 多 缺少 文档 的 旧 的 操作 型 应 用 。 

如 图 20-6 所 示 ， 除 去 以 上 这 些 局 限 (其 至 更 多 ) ， 构 架 师 必须 准备 好 将 数据 从 旧 操 
作 环 境 移 人 DW2.0 的 交互 区 和 整合 区 。 





图 20-5 常常 找 不 到 说 明文 档 图 20-6 为 数据 向 DW2. 0 移动 作 准备 


数据 仓库 构架 师 的 工作 是 找 出 旧 系 统 中 什么 样 的 数 
据 是 数据 仓库 的 最 佳 数据 源 。 图 20-7 描述 了 这 一 任务 。 

不 是 所 有 操作 环境 中 的 数据 都 能 进入 DW2.0 的 交 
互 区 的 ， 操 作 环 境 中 的 不 同 部 分 也 都 可 当 作 数据 源 。 

从 操作 环境 中 选 出 来 的 数据 是 能 得 到 的 最 好 的 源 数 
据 ， 最 好 的 源 数 据 是 : 








。 最 精确 的 

。 最 完整 的 

。 最 新 的 本 

。 最 可 靠 的 图 20-7 寻找 最 佳 数 据 源 
。 最 易 得 到 的 


这 一 对 交互 区 中 最 佳 数据 的 定义 被 称 作 源 数据 记录 系统 。 当 数据 从 整合 区 进入 归档 区 
时 ， 记 录 系 统 会 有 所 延伸 。 

有 时 ， 两 三 个 文件 会 被 用 作 DW2. 0 交互 区 中 同一 数据 单元 的 数据 源 ， 在 一 些 其 他 情 
况 下 ， 操 作 型 应 用 系统 环境 中 只 有 一 个 单独 的 数据 源 。 
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在 对 来 自 于 操作 环境 的 最 佳 源 数 据 做 了 明确 的 定义 后 ， 就 需要 在 源 数 据 到 目标 数据 之 
间 建 立 映 射 关 系 ， 这 一 过 程 称 为 数据 映射 (图 20-8) 。 有 些 情况 下 ， 映 射 关 系 简单 到 只 说 
明 数 据 从 一 个 地 方 开始 到 另 一 个 地 方 结 
束 。 图 20-9 描绘 了 一 个 简单 的 映射 过 程 。 

但 在 其 他 情况 下 ， 映 射 往往 是 更 复杂 
的 。 图 20-10 表明 ， 在 数据 移动 的 同时 可 
能 还 需要 进行 计算 ， 不 仅 需 要 计算 ， 还 需 
要 知道 计算 的 日 期 和 速率 。 

简单 的 计算 可 能 不 是 唯一 必须 的 计算 
类 型 。 图 20-11 给 出 了 一 种 不 同 的 计算 ， 外 
在 这 种 计算 中 用 到 了 多 个 不 同 的 记录 。 计 os 
算 往往 并 不 是 复杂 的 ,但 其 中 的 数据 安排 图 20-8 ”建成 的 由 旧 环 境 向 数据 仓库 的 映射 
却 是 非常 有 挑战 性 的 。 








图 20-9 一 个 简单 的 映 庙 图 20-10 一 个 较 复杂 的 映射 


当 有 不 止 一 个 数据 源 时 ， 会 产生 另 一 种 形式 的 映射 。 这 时 ， 还 需要 用 来 确定 哪 种 数据 
源 在 哪 种 条 件 下 最 佳 的 逻辑 。 图 20-12 描述 了 这 种 逻辑 


全 
5 
如 果 客 户 日 期 > 2000 
户 姓 名 


客 






-一 


如 果 没 有 其 他 客户 姓名 
客户 姓名 





图 20-11 另 一 种 映射 图 20-12 ”有 多 个 源 时 ， 使 用 逻辑 来 判定 哪个 源 最 佳 


在 一 些 情况 下 ， 找 不 到 数据 源 时 就 需要 提供 一 个 默认 值 (图 20-13 ) 。 
数据 映射 的 另 一 考虑 是 如 何 协 调 不 同 的 编码 值 。 有 时 ， 源 数据 采用 一 种 编码 方式 ， 而 
目标 数据 需要 采用 不 用 的 编码 方式 。 图 20-14 描绘 了 编码 值 间 的 协调 。 


入 








AR 
> Te CM_ 通 用 磨坊 公司 CM- 通 用 汽车 


图 20-13 ”有 时 需要 提供 默认 值 图 20-14 ”映射 包含 校正 编码 值 
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建立 好 映射 之 后 ， 交 互 区 的 数据 增长 就 可 以 开始 了 。 图 20-15 展示 了 从 源 到 目标 的 整 
个 数据 映射 。 








Kk 


图 20-15 ”映射 完成 后 ，DW2. 0 


的 装 人 过 程 就 准备 开始 了 
数据 映射 是 ETL 过 程 的 必要 输入 (图 20-16 ) 。 





图 20-16 映射 说 明 变 成 ETL 说 明 


20. 1 其 他 记录 系统 


为 外 一 个 记录 系统 有 用 的 地 方 是 数据 集 市 的 创建 。 数 据 集 市 能 够 从 企业 数据 仓库 环境 
中 众多 不 同 的 源 抽取 得 到 ， 例 如 DW2. 0 数据 仓库 的 交互 区 、 整 合 区 、 近 线 区 以 及 归档 区 
等 。 所 有 这 些 数 据 集 市 抽取 其 数据 的 地 方 被 称 作 对 数据 集 市 的 记录 系统 。 

图 20-17 摘 绘 了 DW2. 0 企业 数据 仓库 中 不 同 的 区 域 作 为 数据 集 市 中 数据 的 记录 系统 。 


20.2 企业 用 户 的 观点 


从 重要 性 角度 来 说 ,企业 用 户 能 够 做 的 有 助 于 DW2.0 构建 的 最 重要 的 一 件 事 是 对 记 
录 系 统 的 详细 规格 说 明 。 业 务 是 证 明 记 录 系 统 的 最 终 权 威 ， 如 果 这 个 系统 不 能 反映 企业 
业务 ， 那 么 它 就 是 没有 意义 的 。 

企业 用 户 是 判定 转换 和 记录 系统 是 否 正确 工作 的 最 终 判 决 者 。 


20.3 总 结 


数据 仓库 环境 包含 数据 源 和 数据 目标 。 数 据 源 一 一 来 自 交 互 区 或 来 自 外 部 旧 的 应 
用 一 一 被 称 作 记录 系统 ， 记 录 系 统 是 对 最 佳 数 据 源 的 定义 。 
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图 20-17 数据 集 市 同样 也 有 记录 系统 


最 佳 数据 源 是 那些 完整 、 准 确 、 实 时 的 数据 。 高 质量 的 数据 能 够 使 记录 系统 更 好 。 
记录 系统 的 重要 性 有 多 方面 原因 ， 它 对 于 想 要 将 记录 系统 产生 的 映射 用 于 提供 目标 数 


据 的 开发 人 员 而 言 很 重要 ， 更 重要 的 是 ,终端 用 户 分 析 师 需要 将 记录 系统 作为 分 析 过 程 
的 一 部 分 加 以 理解 。 


记录 系统 是 环境 中 数据 整合 的 一 个 主要 贡献 者 。 


第 21 章 多 方面 的 话题 


本 章 要 讨论 的 话题 非常 重要 ， 但 不 足以 重要 到 可 以 作为 单独 一 章 。 以 下 给 出 了 本 章 要 
讨论 的 多 个 话题 : 

。 数据 集 市 

。 监视 DW2.0 环境 

。 将 数据 从 一 个 数据 集 市 移动 到 男 一 个 数据 集 市 

。 如 何 处 理 不 合格 数据 

。 在 DW2.0 中 移动 数据 的 速率 

e。 数据 仓库 基础 设施 建设 

DW2. 0 已然 成 为 处 于 DW2.0 企业 数据 仓库 核心 的 数据 的 代表 。 然 而 ， 还 有 些 独 立 的 
结构 能 够 使 用 数据 用 于 分 析 ， 探 索 工具 就 是 这 样 一 种 结构 。 还 有 一 种 从 DW2.0 获取 数据 
的 结构 则 是 数据 集 市 。 


21. 1 数据 集 市 


图 21-1 描述 了 一 个 正 从 DW2.0 企业 数据 仓库 获取 数据 的 数据 集 市 。 

数据 集 市 的 建立 是 为 了 方便 那些 以 相同 方式 查看 数据 的 人 。 典 型 的 数据 集 市 是 为 不 同 
部 门 建立 的 ， 自 身 拥 有 数据 集 市 的 典型 企业 部 门 有 财务 、 销 售 、 市 场 以 及 会 计 等 部 门 。 

DW2.0 环境 中 的 任何 一 部 分 都 可 以 用 来 产生 一 个 数据 集 市 ， 正 常情 况 下 是 由 DW2.0 
的 整合 区 来 为 数据 集 市 提供 数据 的 ， 但 DW2.0 中 的 其 他 区 也 有 可 能 向 数据 集 市 中 添加 
数据 。 


21.2 数据 集 市 带 来 的 便利 


数据 集 市 带 来 的 便利 就 是 ，DW2.0 中 的 数据 是 过 于 详细 的 数据 ， 而 数据 集 市 中 的 数 
据 通常 不 是 那么 过 于 详细 。 当 人 们 以 共同 的 方式 来 查看 数据 时 ， 更 有 效 也 更 方便 的 做 法 
是 ， 获 取 详 细 数据 并 按照 用 户 组 想 要 查看 它 的 方式 将 其 结构 化 。 这 样 ， 当 某 人 想 要 查看 
数据 时 ， 总 能 以 个 人 想 要 的 结构 化 、 格 式 化 的 方式 查看 数据 ， 而 不 必 担 心 还 需 提 取 详 细 
数据 并 将 其 重 构 的 工作 。 

数据 集 市 如 此 盛行 还 有 其 他 一 些 重 要 原因 。 它 之 所 以 吸引 人 是 因为 当 将 数据 置 于 企业 
数据 仓库 外 部 时 ， 数 据 的 处 理 成 本 通常 会 降低 ， 在 DW2.0 的 宿主 机 器 上 的 处 理 成 本 常常 
与 计算 周期 能 达到 的 最 高 值 一 样 高 ， 而 在 脱 机 状态 下 提取 数据 再 将 其 放 入 另 一 个 更 小 、 
更 部 门 级 的 机 器 上 时 人 处理 成 本 就 会 减 小 。 

数据 集 市 盛行 的 男 一 个 原因 是 通过 将 数据 集 市 提取 到 另 一 机 器 上 ，DW2.0 企业 数据 
仓库 环境 的 机 器 周期 得 以 保留 ， 而 将 机 器 周期 从 DW2. 0 环境 移动 到 另 一 个 环境 极 大 地 提 
升 了 主 DW2.0 的 性 能 。 | 

将 数据 集 市 提取 到 另 一 机 器 上 是 个 不 错 的 主意 的 另 一 个 原因 是 ， 不 同 部 门 喜欢 这 种 对 
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数据 集 市 





图 21-1 数据 集 市 来 自 于 DW2.0 环境 





日 己 的 数据 和 处 理 持 有 所 有 权 的 方法 。 


数据 集 市 盛行 以 及 数据 从 主 DW2. 0 环境 中 分 离 出 来 有 着 很 多 充足 的 理由 。 图 21-2 描 
述 的 是 不 同 组 别 的 人 以 相似 的 方式 来 查看 数据 。 


21.3 转换 数据 集 市 数据 


这 种 处 理发 生 在 数据 从 DW2. 0 环境 移 至 数据 集 市 环境 时 ， 包 括 数 据 汇总 、 数 据 聚 集 、 
数据 选择 及 过 滤 、 字 段 及 其 他 数据 属性 的 重组 。 

图 21-3 描述 了 在 DW2. 0 环境 中 找到 的 详细 数据 换 转 成 数据 集 市 结构 时 发 生 的 活动 
类 型 。 

判断 什么 时 候 将 分 析 过 程 由 企业 数据 仓库 移入 数据 集 市 中 有 意义 是 数据 仓库 构架 师 面 
临 的 最 有 趣 的 问题 之 一 。 答 案 是 ， 当 许多 人 以 相同 方式 查看 数据 并 且 做 大 量 查询 时 ， 创 
建 数据 集 市 就 有 意义 了 。 
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图 21-2 数据 集 市 为 那些 以 相近 方式 查看 数据 的 人 服务 


21.4 监视 DW2.0 


数据 仓库 监视 器 是 获知 何 时 应 添加 一 个 或 多 个 数据 集 市 的 最 佳 方法 之 一 。 图 21-4 描 
述 了 一 个 数据 仓库 监视 带 检 测 数据 仓库 中 正在 进行 的 活动 。 当 检测 到 连续 的 使 用 形式 时 
可 能 就 该 建立 数据 集 市 了 。 

数据 集 市 在 建成 后 通常 都 是 自治 的 ， 终 端 用 户 几 乎 能 用 他 们 的 数据 集 市 做 任何 想 做 
的 事 。 


21.5 在 数据 集 市 间 移 动 数据 


将 数据 直接 从 一 个 数据 集 市 移动 到 另 一 个 数据 集 市 在 构架 上 还 不 健全 。 图 21-5 指出 ， 
几乎 所 有 情况 下 ， 都 无 法 将 数据 直接 从 一 个 数据 集 市 移动 到 另 一 个 中 。 

如 采 有 必要 在 两 个 或 更 多 数据 集 市 间 共 享 数据 ， 那 么 应 将 该 数据 放置 在 DW2.0 企业 
数据 仓库 环境 中 。 
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图 21-3 ”来 自 DW2.0 的 数据 经 


21.6 不 合格 数据 


期 望 所 有 数据 都 能 完全 输入 到 大 型 、 复 杂 的 企业 数据 仓库 环境 中 是 不 合理 的 ， 图 
21-6 描述 了 这 一 问题 一 一 对 DW2. 0 环境 中 的 不 合格 数据 应 该 怎么 处 理 ? 

应 该 做 的 第 一 件 事 是 试图 确认 不 合格 数据 的 来 源 。 如 果 能 找到 来 源 ， 下 一 步 就 是 修正 
这 一 数据 源 。 图 21-7 指出 ， 第 一 步 要 找 出 不 合格 数据 是 如 何 进入 到 DW2. 0 的 。 


21. 7 ”用 以 平衡 的 条 目 
修正 一 个 将 不 合格 数据 传送 到 数据 仓库 的 过 程 并 不 能 解决 如 何 处 理 已 经 进入 数据 仓库 
的 不 合格 数据 的 问题 。 


修正 DW2. 0 中 不 合格 数据 的 一 种 方法 是 找到 不 合格 数据 并 且 构 造 一 个 “平衡 ”条 
目 。 如 果 发 现 系统 中 有 一 笔 错 误 的 数据 条 目 $23. 61， 那 么 再 构造 另 一 个 等 于 - 8$23 61 
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数据 仓库 监视 天 





21-4 为 了 决策 何 时 适宜 建立 数据 集 市 ， 需 监视 对 DW2. 0 环境 的 访问 


的 条 目 即 可 修正 该 数据 。 这 种 方法 保持 了 账目 平衡 ， 并 且 留 下 检查 跟踪 。 但 是 ， 这 种 方 
法 仅 限 于 调整 有 限 数 据 并 且 能 够 确定 错误 数据 的 情况 。 
图 21-8 描述 了 平衡 条 目 方 法 。 


21.8 重新 设置 值 


不 幸 的 是 ， 很 多 情况 下 ， 并 不 能 找到 数目 确定 的 错误 数据 并 为 之 建立 平衡 条 目 。 这 种 
情况 下 要 强制 建立 一 个 条 目 来 “重新 设置 ” 某 个 记录 中 的 值 。 
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图 21-5 几乎 所 有 情况 下 ， 在 数据 集 市 间 分 享 数据 的 可 操作 性 都 非常 差 





图 21-6 ”如何 处 理 不 合格 数据 图 21-7 找 出 不 合格 数据 如 何 进 入 DW2.0 环境 的 
原因 并 在 ETL 或 其 他 过 程 中 作 修 改 
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通过 建立 新 的 条 目 来 完成 对 值 的 强制 性 重 置 时 ， 跟 踪 记 录 应 详细 说 明 重 置 过 程 是 如 何 
完成 的 。 
图 21-9 描述 了 值 的 重 置 。 


pm 
ap 
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图 21-8 如 果 可 能 的 话 ， 添 加 一 条 “平衡 ”记录 图 21-9 对 一 组 记录 作 强 制 性 调整 


21.9 数据 修正 


修正 DW2. 0 环境 中 的 值 的 第 三 种 方法 是 找到 不 合格 数据 然后 在 它们 的 记录 中 修改 该 
值 。 不 笠 的 是 ， 这 种 方法 有 很 多 缺陷 。 第 一 个 问题 是 没有 清晰 的 、 明 显 的 跟踪 记录 ， 第 
二 个 缺点 是 数据 的 完整 性 遭 到 破坏 。 

例如 ， 在 上 午 9:31 生产 一 份 报表 ， 并 计算 出 一 个 汇总 数据 值 是 $5918. 91 。 之 后 在 上 
午 10:14 做 了 大 量 调整 ， 在 上 午 11 :57 时 重新 计算 得 到 值 为 $4817.73。 此 时 的 问题 是 没 
办 法 将 这 些 不 同 的 汇总 值 关 联 起 来 ， 或 协调 为 什么 


这 些 值 是 不 同 的 。 | 
图 21-10 描述 了 在 DW2. 0 环境 中 更 换 记录 值 的 
实际 操作 。 


- : 图 21-10 ”进入 并 更 改 错误 记录 中 的 值 
21. 10 ”数据 移动 的 速度 


数据 进入 和 通过 DW2.0 数据 仓库 的 移动 速度 引出 了 一 个 有 趣 而 具有 哲学 意味 的 问题 。 
一 些 学 派 认为 数据 应 尽 可 能 快速 地 在 整个 DW2.0 数据 仓库 中 移动 。 换 句 话 说， 如 果 上 午 
7:13 产生 一 笔 交 易 ， 那 么 在 7:14 数据 就 应 进入 并 在 交互 区 反映 出 来 。 图 21-11 指出 ， 有 
许多 人 文 持 这 种 数据 在 DW2. 0 中 移动 时 “ 尽 可 能 快 ” 的 速度 。 

另 一 种 方法 是 以 一 种 较 慢 的 、 更 慎重 的 方式 在 整个 DW2.0 环境 中 移动 数据 。 例 如 ， 
在 1 月 14 日 进行 的 一 笔 交 易 可 能 直到 1 月 21 日 数据 才能 进入 DW2.0 环境 ， 这 就 意味 着 
数据 进入 DW2.0 环境 时 ,一 周 时 间 已 经 过 去 了 。 这 种 数据 在 等 待 移 人 DW2.0 环境 的 过 
程 中 允许 进行 “整理 ”。 

当 给 予 足够 时 间 来 对 错误 设置 的 数据 进行 调整 时 ， 数 据 会 进行 整理 。 例 如 ， 假 定 周一 
进行 了 一 笔 交 易 ; 周二 发 现 需 要 对 该 交易 做 出 调整 ， 而 在 周三 发 现 需 要 对 该 交易 进行 再 
次 调整 ， 最 后 周 五 该 交易 被 送 入 DW2.0 环境 ,那么 这 种 不 急于 将 交易 数据 传人 DW2.0 
的 方式 就 给 将 交易 数据 整理 直至 最 终 状 态 提供 了 可 能 ， 带 来 的 结果 是 更 精确 的 数据 以 及 
对 于 DW2.0 而 言 更 简单 的 处 理 。 

图 21-12 展示 了 在 传人 DW2.0 环境 之 前 允许 数据 进行 整理 的 过 程 。 
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图 21-11 尽 可 能 快 地 更 新 DW2.0 中 的 数据 一 一 一 种 方法 


<1. 11 数据 仓库 工具 


数据 仓库 工具 ( DWU) 是 采用 一 些 或 所 有 数据 仓库 处 理 ， 并 且 透 明 地 替换 现 有 的 一 
些 或 所 有 数据 仓库 基础 设施 的 设备 。 对 于 运用 数据 仓库 工具 有 许多 充足 的 理由 ， 包 括 性 
能 、 成 本 以 及 延长 DBMS 的 许可 期 限 等 .“ Dataupia” 是 数据 仓库 工具 的 一 个 不 错 的 例子 。 

以 下 实例 说 明了 为 什么 数据 仓库 工具 大 有 好 处 。 如 图 21- 13 所 示 ， 看 看 “标准 的 ” 
数据 仓库 处 理 环境 。 

本 图 描述 了 一 个 终端 用 户 与 SAP 之 类 的 技术 环节 直接 交互 ， 而 SAP 又 与 例如 Oracle 之 类 
的 DBMS 直接 交互 ，Oracle 与 传统 的 例如 EMC、1BM 或 Hitachi 之 类 的 SAN 技术 直接 交互 ， 

如 图 21-13 所 示 ， 随 着 时 间 的 增长 ， 传统 环境 中 的 大 量 数据 量 开始 增长 并 且 可 能 恋 得 
非常 巨大 。 图 21-14 描述 了 随时 间 变 化 传统 数据 仓库 会 发 生 什么 。 

在 这 种 环境 中 数据 如 此 固定 地 增长 的 基本 原因 有 三 点 

。 数据 均 以 低 粒度 级 收集 得 到 。 
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图 21-12 在 移 和 人 DW2.0 之 前 允许 数据 时 间 进 行 “整理 ” 


。 数据 是 过 去 收集 的 。 

。 数据 是 从 多 种 多 样 的 数据 源 收集 并 整合 的 。 

数据 增长 有 很 多 后 果 ， 一 个 最 大 的 后 果 是 数据 以 及 文 持 它 
的 基础 设施 的 成 本 会 大 幅 增 长 。 图 21-15 指出 ， 作 为 数据 量 管 
理 功能 ， 基 础 设施 的 成 本 会 升 高 。. 

成 本 不 仅仅 是 增长 一 一 而 且 是 大 幅 增 长 。 

在 数据 仓库 处 理 中 ， 存 储 成 本 是 个 有 趣 的 因素 。 在 建造 和 发 
展 数据 仓库 的 头 两 三 年 ， 存 储 成 本 几乎 不 重要 。 但 是 当 数 据 仓 库 
成 熟 后 ， 数 据 仓库 其 他 方面 的 成 本 减少 了 ， 而 存储 成 本 却 增 长 
了 。 而 且 ， 不 仅 存 储 成 本 增长 ， 用 于 存储 的 基础 设施 成 本 也 相应 
增长 ， 有 处 理 成 本 、 软 件 许可 成 本 以 及 销售 渠道 成 本 。 为 外 ， 在 
获得 并 实现 存储 后 会 不 断 地 产生 操作 成 本 。 当 针对 这 些 因 素 而 考 
虑 实际 的 存储 成 本 时 ， 它 仅仅 是 总 的 存储 成 本 中 的 一 小 部 分 。 








图 21-13 ”传统 DW2.0 环境 


多 方面 的 二 题 
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图 21-14 DW2.0 恋 旧 后 会 发 生 什 么 图 21-15 


基础 设施 的 成 本 


不 羊 的 是 ， 存 储 及 存储 基础 设施 的 成 本 是 不 可 避免 的 。 一 旦 某 机 构 受 困 于 某 一 处 理 ， 


那么 它 就 必须 继续 下 去 ， 并 且 很 长 时 间 。 


但 是 ， 组 织 机 构 需 要 管理 预算 ， 每 年 支出 的 主要 增长 不 能 总 是 不 明确 ， 而 组 织 机 构想 
要 找到 管理 预算 的 方法 也 是 很 自然 的 。 因 此 ， 他 们 求助 于 数据 仓库 工具 来 帮助 他 们 管理 


预算 以 及 他 们 的 数据 仓库 环境 就 很 正常 了 。 


数据 仓库 工具 是 一 种 为 传统 的 SAN 存储 的 一 小 部 分 成 本 存储 和 管理 数据 的 方法 。 
图 21-16 描述 了 一 个 传统 存储 与 DWU 相 结 合 方式 管理 的 数据 仓库 。 


本 图 表明 一 部 分 数据 受 传统 存储 方式 管理 ， 另 一 部 分 则 
受 DWU 管理 。 这 样 分 开 管 理 的 效果 显著 地 表现 在 大 大 降低 
了 数据 仓库 日 常 的 基础 操作 成 本 。 

从 细节 看 ， 增 加 DWU 后 操作 数据 仓库 的 成 本 可 能 会 极 大 
减少 。 例如， 很 定 某 企业 有 一 个 数据 量 为 10TB 的 数据 仓库 ， 
每 年 的 操作 预算 是 $10 000 000 ， 再 假定 该 企业 通过 加 入 DWU 
将 其 数据 仓库 存储 需求 减 半 ， 那 么 它 每 年 的 操作 成 本 如 下 . 

5TB 数据 使 用 传统 存储 技术 一 一 $5 000 000 

5TB 数据 使 用 DWU 存储 技术 一 一 $500 000 

总 的 操作 成 本 一 一 $5 500 000 

总 共 节 省 一 一 $4 500 000 

将 数据 移入 DWU 大 大 削减 了 传统 存储 技术 连续 不 断 的 操 
作成 本 。 执 行 DWU 并 不 像 把 电源 插头 插入 电源 插座 那么 简 
单 ，DWU 技术 的 配置 有 多 种 策略 ， 每 种 配置 都 各 有 其 优 少 。 





图 21-16 数据 分 割 
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运用 DWU 的 一 种 办 法 是 完全 替代 传统 技术 一 一 DWU 转 人 而 传统 技术 转 出 。 这 种 替代 
策略 的 优点 是 可 以 立即 削减 存储 成 本 ， 同 样 ， 它 也 有 一 些 缺 点 ， 包 括 : 

。 许可 破坏 : 不 能 不 考虑 原 有 的 合同 及 许可 ， 而 轻易 丢弃 已 有 的 旧 环 境 。 

。 软件 破坏 : 有 些 情 况 〈 并 非 Dataupia) 下 , 一 些 DWU 对 用 于 管理 存储 操作 的 控制 

不 透明 ， 这 种 情况 下 ，DWU 无 法 彻底 取代 传统 存储 技术 。 

。 存储 最 优化 : DWU 存储 对 于 OLTP 操作 不 是 最 优 的 。 一 些 情况 下 ，DWU 只 对 数据 

仓库 操作 最 优 。 

另 一 种 方法 是 渐进 地 对 一 些 传统 数据 仓库 中 的 存储 技术 进行 替换 。 

这 种 方法 的 缺点 是 必须 对 数据 透明 ，DWU 必须 与 控制 传统 存储 的 操作 系统 及 DBMS 
兼容 。 如 果 DWU 对 它们 不 透明 ， 那 么 它 必 须 访问 并 且 管 理 那些 较 易 从 传统 环境 中 分 离 出 
来 的 片段 环境 。 不 幸 的 是 ， 这 种 渐进 地 、 分 离 的 方法 在 应 用 中 多 少 有 些 局 限 。 

运用 DWU 技术 的 第 三 种 方法 是 透明 地 配置 DWU。 透 明 意 味 着 DBMS 用 户 不 知道 数据 
人 位置， 数据 可 能 存储 在 DWU 中 或 者 是 传统 存储 中 ， 系 统 根本 不 在 乎 。 数 据 实际 的 物理 位 
置 以 及 对 数据 的 管理 对 于 用 户 以 及 DBMS 是 透明 的 。 采 用 这 种 方法 时 ， 用 于 控制 DWU 的 
软件 必须 与 操作 系统 及 管理 传统 存储 的 DBMS 兼容 。 

图 21-17 给 出 了 这 种 透明 的 存储 方式 。 





21-17 数据 库 透 明度 


21. 12 ”总 车 


数据 集 市 包含 了 用 于 作 决 策 的 部 门 数据 。 有 若干 理由 支持 建立 数据 集 市 : 
。 机 如 周期 成 本 低 。 

e。 终端 用 户 拥有 控制 权 。 

。 DW2.0 的 性 能 得 以 提升 。 

当 不 合格 数据 进入 DW2. 0 环境 中 时 ， 

。 不 合格 数据 来 源 应 该 明确 并 且 得 以 修正 。 

。 可 以 建立 平衡 条 目 。 

。 可 以 重 置 值 。 

e。 可 以 对 数据 进行 实际 修改 。 


第 22 章 ”DW2. 0 环境 中 的 处 理 


DW2. 0 环境 的 显著 特点 是 在 不 同 的 区 域 能 找到 各 种 类 型 的 数据 。 从 许多 方面 说 ， 是 
数据 与 区 域 定义 了 DW2. 0。 但 从 系统 构架 师 的 角度 而 言 ，DW2. 0 不 仅仅 是 一 个 数据 构 
架 。 另 一 种 方式 是 通过 理解 在 各 种 环境 或 区 域 下 找到 的 过 程 来 理解 DW2. 0。 

DW2. 0 环境 中 存在 多 种 类 型 的 事务 和 过 程 ， 也 许 这 些 事务 中 最 简单 的 就 是 一 个 简单 
的 数据 请 求 了 。 图 22-1 给 出 了 一 个 简单 的 数据 请 求 。 

一 个 简单 的 数据 请 求 是 想 要 找 出 一 两 行 数据 ， 然 后 以 交互 的 
形式 显示 它们 。 这 种 简单 的 事务 占用 很 少量 的 系统 资源 并 且 在 混 
辑 上 非常 简单 。 这 种 事务 经 常 存在 于 在 线 环境 中 ， 因 为 当 系 统 正 
在 执行 这 类 事务 时 很 容易 得 到 优良 的 性 能 。 

这 里 所 描述 的 事务 是 预先 定义 的 。 因 为 其 逻辑 是 预先 确定 
的 ， 所 以 终端 用 户 只 不 过 是 运转 使 其 执行 事务 。 

复杂 事务 是 简单 事务 的 一 种 变形 。 复 杂事 务 通常 比 简单 事务 查看 更 多 行 的 数据 ,日 和 旬 
含 了 相当 多 的 逻辑 ， 以 及 一 些 简单 事务 中 所 不 包含 的 东西 。 如 果 复 杂事 务 的 执行 不 需要 
太 多 数据 ， 那 么 它 就 可 以 自由 地 混入 交互 区 的 工作 流 中 ， 而 不 会 严重 降低 性 能 。 

图 22-2 显示 了 一 个 复杂 事务 。 

复杂 事务 几乎 总 是 预先 确定 的 ， 它 们 仅仅 是 通过 终端 用 户 来 运转 以 执行 ， 

另 一 种 简单 事务 的 变形 是 一 种 基于 特定 基础 上 的 事务 。 图 22-3 描述 了 这 种 特定 事务 ， 





图 22-1 简单 的 访问 事务 





图 22-2 复杂 事务 图 22-3 ”特定 事务 


特定 事务 通常 非常 简单 ， 不 会 存在 复杂 的 逻辑 。 特 定 事务 通常 也 不 查看 太 多 数据 ， 但 
偶尔 终端 用 户 也 会 递交 一 个 需要 查看 大 量 数据 的 特定 查询 请 求 。 当 运转 一 个 要 查看 大 量 
数据 的 特定 事务 时 ， 性 能 就 会 受到 影响 。 

出 于 这 样 的 原因 ， 在 交互 环境 中 往往 没有 太 多 的 特定 事务 ， 而 在 整合 环境 中 特定 查询 
请 求 才 更 普遍 。 

在 很 多 情况 下 ， 会 在 数据 集 市 环境 中 发 现 特定 查询 请 求 ， 而 这 些 请 求 往往 是 由 商业 智 
能 软件 产生 的 。 实 际 上 ， 除 了 参数 外 ， 终 端 用户 不 向 商业 智能 软件 输入 任何 东西 。 一 日 
写 入 参数 后 ， 就 由 商业 智能 软件 生成 查询 请 求 。 

尺 一 种 查询 类 型 是 访问 查询 。 访 问 查询 与 简单 的 访问 查询 的 不 同 在 于 访问 查询 往往 要 
访问 大 量 的 数据 。 
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图 22-4 描述 了 访问 查询 。 

访问 查询 的 逻辑 往往 非常 简单 ， 然 而 它 所 涉及 的 数据 量 可 能 会 相当 大 。 

分 析 人 员 使 用 访问 查询 来 扫描 全 部 数据 。 有 时 候 会 出 现 的 
仅 查 看 一 两 行 数据 的 情况 是 不 能 提供 所 需要 的 信息 的 。 由 于 要 
访问 大 量 数据 ， 访 问 事务 通常 不 会 在 交互 区 中 执行 。 如 果 要 在 
交互 区 执行 ， 那 也 只 能 在 对 系统 的 整体 性 能 没有 损害 的 空 上 自 时 
间 段 内 执行 。 相 反 ， 访 问 事务 更 常见 于 在 整合 区 和 存档 区 中 执 四 
行 。 另 外 ， 访 问 查 询 很 少 在 近 线 环境 中 执行 。 图 22-4 ”访问 查询 

DW2.0 环境 中 的 男 一 种 常见 的 处 理 是 转换 处 理 。 转 换 处 理 
对 整体 数据 进行 访问 、 改 变 以 及 写 入 新 文件 。 在 处 理 高 峰 期 时 ， 
转换 处 理 几 乎 从 不 在 交互 环境 中 运行 。 

图 22-5 摘 述 了 一 个 转换 处 理 。 

转换 处 理 通常 有 着 复杂 的 算法 。 有 些 情 况 下 ， 转换 人 处理 还 
包含 非常 复杂 的 过 程 。 由 于 这 个 原因 ， 一 般 都 是 在 预先 定义 的 
基础 上 来 编写 转换 处 理 ， 而 其 他 形式 都 不 常见 。 换 种 说 法 就 是 ， 
特定 的 转换 处 理 在 本 质 上 绝 不 是 特定 的 。 

元 数据 是 转换 处 理 的 一 个 副产品 。 转 换 处 理 所 执行 的 转换 也 都 是 由 元 数据 形成 的 。 因 
此 ， 作 为 处 理 的 文档 ， 元 数据 被 写 出 并 对 DW2.0 环境 下 的 许多 人 都 非常 有 用 。 

转换 处 理 既 适用 于 结构 化 数据 也 适用 于 非 结 构 化 数据 。 
还 有 一 种 处 理 是 统计 处 理 。 统 计 处 理 对 于 大 量 数据 的 数学 分 析 非 常 有 用 。 由 于 几乎 所 
有 情况 下 的 统计 处 理 都 需要 访问 大 量 数据 ， 因 此 当 在 线 响 应 时 间 是 一 个 要 考虑 的 因素 时 ， 
就 不 能 运行 统计 处 理 。 

图 22-6 展示 了 一 个 统计 处 理 。 

统计 处 理 通常 包含 着 复杂 的 处 理 逻 辑 。 它 们 往往 是 
所 谓 的 启发 式 处 理 分 析 流 的 一 部 分 。 在 启发 式 处 理 中 ， 
只 有 在 紧 接 着 的 上 一 步 分 析 完 成 后 ， 下 一 步 分 析 工 作 才 
比较 明显 。 

因此 ， 启 发 式 处 理 需 要 一 种 特定 的 处 理 过 程 。 

DW2.0 环境 的 不 同 部 分 通常 执行 不 同类 型 的 处 理 。 TO 
图 22-7 给 出 了 交互 区 中 的 处 理 类 型 。 人 















图 22-7 交互 环境 中 的 工作 流 大 部 分 看 起 来 像 什么 


交互 区 中 有 简单 事务 和 复杂 事务 ， 没 有 统计 处 理 ， 没 有 访问 处 理 ， 只 有 能 在 不 存在 资 
源 冲 突 的 地 方 以 有 条 不 紊 的 方式 运行 的 事务 。 换 言 之 ， 交 互 区 环境 的 工作 流 用 于 少量 的 、 
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快速 运行 的 以 及 有 良好 秩序 的 事务 。 除 去 这 些 情况 ， 其 他 情况 都 会 中 断 事务 流 并 且 对 性 
能 产生 消极 影响 。 
整合 环境 能 执行 各 种 处 理 。 图 22-8 给 出 了 整合 环境 中 能 够 执行 的 处 理 类 型 。 








图 22-8 整合 结构 化 环境 中 的 处 理 
从 图 22-8 中 可 以 看 到 ， 当 数据 进入 整合 环境 时 进行 转换 处 理 。 环 境 一 经 创建 ， 就 执 
行 特定 处 理 、 访 问 处 理 以 及 复杂 处 理 。 


整合 环境 中 执行 处 理 的 最 终结 果 是 混合 的 工作 量 ， 正 因 如 此 ， 系 统 的 整体 性 能 不 够 
稳定 。 


图 22-9 给 出 了 近 线 处 理 过 程 。 





图 22-9 ” 近 线 环境 中 很 少 或 没有 终端 用 户 处 理 


实际 上 在 近 线 环境 中 很 少 执行 处 理 ， 大 概 只 有 两 种 处 理 即 访问 处 理 和 替换 处 理 。 替 换 
处 理 是 一 种 专用 处 理 ， 处 理 那些 从 近 线 环境 中 获取 的 并 且 放 置 在 整合 区 的 少量 数据 。 

归档 环境 中 实际 上 很 少 执行 处 理 ， 然 而 在 归档 环境 中 执行 的 操作 往往 是 资源 非常 密集 
的 处 理 。 图 22-10 给 出 了 归档 环境 中 的 处 理 类 型 。 

归档 环境 中 的 普遍 处 理 是 统计 处 理 和 访问 处 理 。 如 果 已 建立 被 动 索引 ， 那 么 归档 环境 


中 的 处 理 通 常会 很 有 效 。 但 如 果 未 建立 被 动 索 引 ， 那 么 不 得 不 在 归档 环境 中 对 全 部 数据 
进行 扫描 。 
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图 22-10 ”归档 环境 中 只 有 访问 处 理 与 统计 处 理 


在 归档 环境 中 ， 在 线 和 高 性 能 不 是 问题 。 
唯一 一 个 处 理 非 结 构 化 数据 的 环境 是 整合 环境 。 
图 22-11 显示 了 非 结 构 化 的 整合 环境 及 其 典型 的 处 理 类 型 。 








图 22-11 非 结 构 化 整合 环境 中 所 有 分 析 处 理 类 型 


非 结 构 化 整合 环境 中 有 多 种 处 理 ， 有 简单 处 理 、 简 单 特定 处 理 、 复 杂 处 理 以 及 访问 处 
理 。 力 外 ， 非 结构 整合 环境 中 放置 的 数据 是 非 结 构 化 数据 经 过 转换 处 理 得 到 的 。 


总 结 


处 理 是 DW2. 0 环境 的 一 部 分 。DW2. 0 环境 中 的 一 些 处 理 类 型 包括 : 

。 简单 事务 。 

复杂 事务 。 

转换 处 理 。 

访问 处 理 。 

统计 处 理 。 

由 于 这 些 处 理 中 的 数据 以 及 各 区 的 性 能 特征 ， 不 同类 型 的 处 理 在 DW2. 0 环境 中 的 不 

同位 置 有 着 密切 的 关联 。 


第 23 章 管理 DW2. 0 环境 


DW2.0 环境 是 一 个 非常 复杂 的 环境 ， 需 要 很 长 的 时 间 来 构建 。DW2. 0 环境 涉及 企业 
的 很 多 部 分 : 日 常 操作 、 管 理 、 战 术 战 略 决策 甚至 是 董事 会 。DW2. 0 环境 也 包含 很 多 方 
面 ， 如 技术 、 商 务 、 法 律 、 工 程 以 及 人 力 资源 等 。 因 此 ，DW2. 0 环境 是 一 个 长 期 管理 问 
题 ， 需 要 小 心 去 经 营 管 理 。 

这 一 和 草 涉及 的 是 在 DW2.0 环境 下 一 些 经 营 管理 方面 的 问题 。 


23. 1 数据 模型 


DW2.0 环境 中 的 知识 核心 是 数据 模型 。 数 据 模型 用 来 描绘 如 何 用 技术 来 满足 业务 需 
求 。 在 很 长 一 段 时 间 里 ， 数 据 模 型 都 是 用 来 指导 不 同 开发 者 的 开发 工作 的 。 如 果 能 合理 
地 运用 数据 模型 ， 一 部 分 开发 接着 另 一 部 分 开发 的 过 程 就 像 拼接 一 幅 巨 型 拼图 。 换 种 说 
法 ， 如 果 没 有 数据 模型 ， 在 DW2. 0 环境 下 要 想 协调 多 个 长 期 的 多 人 开发 项 目 是 一 项 几乎 
不 可 能 完成 的 任务 。 

数据 模型 包含 了 多 种 不 同 的 层次 ， 有 高 层 、 中 层 、 低 层 。 第 一 步 (也 是 最 难 的 一 步 ) 
是 定义 数据 模型 的 整合 范围 。 整 合 范围 之 所 以 很 难 被 定义 是 因为 它 绝 不 是 静止 的 ， 而 是 
持续 变化 的 ， 并 且 每 一 次 改变 都 影响 着 数据 模型。 

当 这 个 范围 变化 得 大 频繁 和 太 快 时 ， 企 业 将 遭受 “范围 里 变 "。 

高 层 数据 模型 很 少 需要 随 着 时 间 的 推移 而 维护 ， 而 中 层 数据 模型 和 低层 数据 模型 则 会 
受到 企业 中 的 长 期 变化 的 明显 影响 。 随 着 时 间 变 化 ， 中 层 数据 模型 中 的 主键 、 数 据 关系 、 
数据 域 、 数 据 定义 、 属 性 ， 甚 至 是 组 属性 都 会 发 生 改变 。 而 每 次 改变 的 发 生 ， 相 关 的 物 
理 关 系数 据 库 也 会 随 之 改变 。 

数据 模型 管理 的 部 分 工作 是 为 了 确保 数据 模型 每 次 改变 都 有 相应 的 对 数据 仓库 的 新 开 
发 和 新 修改 。 其 中 ， 要 确保 的 最 大 问题 是 : 

。 不 能 引入 数据 模型 中 没有 的 新 的 基本 属性 ,或 者 当 要 引用 新 的 基本 数据 元 素 时 ， 

它们 可 以 加 入 数据 模型 。 

“。 新 开发 者 能 够 将 数据 模型 看 作 是 前 进 的 促进 剂 ， 而 不 是 前 进 的 壁 全 。 

。 对 DW2.0 做 的 新 修改 要 遵从 数据 模型 。 | 

需要 特别 注意 的 是 ， 数 据 的 属性 组 和 主键 /外 键 对 数据 间 的 一 致 性 非常 重要 ， 而 数据 
模型 的 其 他 方面 就 没有 那么 重要 了 。 

另外 ， 主 数据 派生 出 来 的 数据 不 需要 遵从 数据 模型 。 


23.2 构架 管理 


除了 为 遵循 数据 模型 而 需要 的 一 个 趋向 数据 模型 的 管理 机 构 外 ， 还 必须 有 一 个 一 般 的 
构 染 机 构 来 管理 DW2. 0 架构 。 构 架 管 理 趋向 于 对 构架 进行 长 期 的 监控 。 接 下 来 给 出 几 个 
构架 管理 需要 注意 的 地 方 。 
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23.2.1 确定 什么 时 候 需 要 归档 区 


大 多 数 环 境 都 不 需要 立即 创建 归档 环境 ， 而 常常 是 过 一 段 时 间 后 才 创 建 它 。 构 架 管 理 

为 何 时 及 如 何 创 建 归档 环境 提供 了 指导 。 构 架 管理 决定 了 归档 环境 的 许多 方面 ， 例 如 : 
。 数据 进入 归档 环境 的 时 间 。 

数据 在 归档 环境 中 停留 多 长 时 间 。 

将 数据 移出 归档 环境 的 准则 。 

归档 平台 。 

归档 环境 的 数据 库 设 计 。 

币 动 索引 是 否 将 被 创建 。 

是 否 创建 被 动 索 引 。 

归档 数据 的 粒度 级 别 。 

其 他 内 容 。 


23. 2.2 确定 是 否 需要 近 线 区 


如 果 需 要 近 线 区 ， 那 么 构架 管理 就 会 确定 一 些 重 要 的 参数 。 例 如 ， 何 时 将 数据 移 人 近 
线 区 、 整 合 区 和 归档 区 ; 要 存储 哪些 元 数据 ; 近 线 区 使 用 什么 平台 ， 等 等 。 随 着 时 间 推 
移 ， 对 近 线 区 的 需求 也 会 发 生变 化 。 在 最 初 设计 时 ， 可 能 很 明显 就 可 以 看 出 根本 不 需要 
近 线 区 。 但 过 一 段 时 间 后 ， 决 定 需 求 的 因素 可 能 发 生变 化 。 因 此 ， 我 们 总 有 一 天 可 能 要 
用 到 近 线 区 ， 而 决定 是 否 需 要 近 线 区 只 是 构架 管理 的 工作 。 构 架 管理 员 能 够 做 的 决定 包 
括 以 下 几 种 : 

。 是 否 需 要 近 线 存储 器 。 

。 数据 进入 近 线 存储 器 中 的 标准 。 

。 近 线 存储 器 所 需 的 平台 。 

。 即将 存储 的 元 数据 。 

。 数据 移出 近 线 存储 器 的 标准 。 

交互 区 是 DW2. 0 环境 中 另 一 个 构架 管理 员 所 关注 的 区 。 有 些 企 业 中 有 交互 环境 ， 而 
有 些 却 没有 。 构 架 管 理 员 主要 解决 如 下 的 问题 : 

。 是 否 需 要 交互 环境 ? 

。 如 果 存 在 一 个 交互 环境 ， 那 么 它 的 响应 时 间 是 否 合适 ， 是 否 合 乎 所 有 服务 标准 协 

议 (SLA) 的 要 求 ; 可 用 性 是 否 适当 ， 是 否 合乎 所 有 SLA 要 求 ; 交互 环境 是 否 可 
用 于 任何 需要 完成 的 报表 ; 是 否 满足 容量 要 求 ? 

。 当 数 据 移出 交互 环境 时 ， 其 是 否 被 适当 地 整合 ? 

。 假如 要 将 遗留 数据 读 和 交互 区 ， 那 么 是 否 已 将 其 适当 地 整合 到 应 用 当中 ? 

。 交互 区 工作 在 什么 平台 ? 

构架 管理 员 的 另 一 项 任务 是 确保 不 存在 从 一 个 数据 集 市 到 另 一 个 数据 集 市 的 数据 流 。 
当 管 理 员 发 现 这 种 情况 时 ， 他 /她 应 当 重 定向 一 个 数据 集 市 的 数据 流 ， 使 其 流向 DW2.0 
环境 ， 然 后 再 从 DW2. 0 返回 到 另 一 个 接受 数据 的 数据 集 市 。 

构架 管理 员 还 有 一 项 任务 就 是 确保 能 够 进行 适当 的 监视 并 对 监视 结果 进行 适当 的 解 


党 理 有 DF2. 0 环境 2413 





释 。DW2.0 环境 中 需要 很 多 监视 活动 。 例 如 ， 需 要 监视 交互 区 中 的 交易 和 响应 时 间 ， 还 
需要 监视 DW2.0 环境 其 他 部 分 的 数据 及 其 使 用 情况 。 

对 DW2.0 环境 下 的 监视 ,需要 考虑 以 下 几 个 间 题 : 

。 交互 区 中 的 交易 是 否 正 在 被 监视 ? 

。 交互 区 的 可 用 性 是 否 正在 被 监视 ? 

。 整合 区 中 的 数据 使 用 是 否 正 在 被 监视 ? 

。 休眠 数据 确定 了 吗 ? 

。 监视 融会 浪费 大 量 系 统 资源 吗 ? 

。 何 时 对 监视 结果 进行 检查 ? 

监视 整合 区 数据 使 用 的 最 重要 的 结果 是 决定 什么 时 候 创建 一 个 新 的 数据 集 市 。 管 理 员 
得 找 整 合 区 中 重复 的 数据 使 用 模式 ， 当 相同 结构 的 数据 请 求 出 现 的 次 数 足 够 多 时 ， 就 表 
明 需 要 数据 集 市 。 

以 上 是 DW2. 0 环境 中 的 一 些 构架 管理 活动 。 但 是 DW2.0 环境 其 他 一 些 方面 也 同样 需 
要 构架 管理 。 

坚 无 疑问 ， 构 架 管 理 员 需 要 掌握 的 一 项 能 力 是 理解 构架 。 如 果 让 一 个 不 知道 构架 的 含 
义 且 不 知道 构架 都 该 考虑 哪些 的 人 来 当 构架 管理 员 ， 那 肯定 是 白费 工夫 。 

构 染 管理 的 男 一 个 重要 部 分 是 管理 DW2. 0 中 的 ETL 处 理 。DW2. 0 中 的 第 一 种 ETL 
进程 是 传统 的 对 从 应 用 源 中 得 到 的 数据 的 整合 。 此 时 需要 监视 的 问题 包括 : 经 过 ETL 处 
理 的 数据 流动 ， 数 据 转换 的 准确 度 ， 这 些 转 换 对 分 析 机 构 的 可 用 性 ， 以 及 转换 的 速度 、 
容易 度 等 。 另 外 一 类 ETL 工具 是 文本 转换 ， 通 过 文本 转换 可 以 将 非 结构 化 数据 转 人 
DW2.0 中 的 数据 仓库 中 。 此 时 的 管理 问题 包括 : 进入 DW2.0 的 数据 量 ， 使 用 的 整合 算 
法 ，DW2.0 中 的 数据 类 型 等 内 容 。 要 注意 的 是 ， 两 种 类 型 的 ETL 转换 是 完全 不 同 的 。 


<3.3 元 数据 管理 


元 数据 是 DW2. 0 环境 中 最 重要 的 一 个 方面 。 由 于 种 种 原因 ， 元 数据 的 管理 是 一 项 单 
独 的 任务 。 其 中 一 些 原因 如 下 : 
。 元 数据 的 捕获 和 管理 工具 的 发 展 大 大 滞后 于 其 他 技术 。 
。 之 前 的 元 数据 管理 并 不 成 功 ， 失 败 次 数 多 于 成 功 次 数 。 
。 相 比 DW2.0 环境 其 他 方面 的 业务 案例 ， 有 关 元 数据 的 业务 案例 需要 更 多 的 关注 。 
当然 ， 还 可 能 存在 更 多 的 原因 ， 使 得 元 数据 管理 成 为 一 个 敏感 问题 。 
门 题 是 需要 使 用 元 数据 来 将 DW2. 0 环境 的 不 同 部 分 有 意义 地 结合 在 一 起 。 也 就 是 说 ， 
如 来 没有 一 个 有 内 聚 性 的 元 数据 基础 结构 ，DW2. 0 的 很 多 不 同 部 分 将 无 法 协调 它们 之 间 
的 工作 。 
元 数据 管理 需要 包含 很 多 方面 ， 其 中 包括 : 
。 元 数据 的 原始 捕获 。 
元 数据 的 编辑 。 
在 DW2.0 环境 中 的 适当 时 间 和 地 点 使 元 数据 可 用 。 
元 数据 的 持续 维护 。 
DW2.0 环境 中 不 同 地 方 的 元 数据 分 布 。 
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e。 元 数据 的 进一步 扩展 。 

。 元 数据 的 归档 。 

除了 以 上 这 些 考虑 ， 元 数据 管理 员 还 要 确定 以 下 重要 内 容 : 

e。 元 数据 的 运行 平台 。 

。 捕获 和 存储 元 数据 所 采用 的 技术 。 

e。 展示 元 数据 或 使 元 数据 可 用 所 采用 的 技术 。 

元 数据 的 一 个 问题 是 它 的 短暂 性 。 跟 结构 化 数据 不 同 ， 元 数据 存在 于 多 种 形式 和 结构 
中 ， 因 此 很 明显 它 不 像 其 他 数据 形式 一 样 具 有 稳定 性 和 适应 性 。 

元 数据 还 有 一 个 主要 问题 是 它 有 多 种 数据 形式 。 其 中 元 数据 的 两 种 基本 类 型 是 : 

e。 业务 元 数据 

。 技术 元 数据 

通常 ， 技 术 元 数据 比 业 务 元 数据 更 容易 识别 和 捕获 ， 这 其 中 的 原因 大 家 早 就 知道 了 。 
实际 上 业务 元 数据 早 就 被 看 作 是 信息 领域 的 一 部 分 ， 但 从 厂商 、 产 品 、 技 术 等 方面 都 没 
有 正式 地 定义 业务 元 数据 。 所 以 相 比 较 业 务 元 数据 ， 技 术 元 数据 更 容易 被 找到 并 确定 。 


23. 4 数据 库 管理 


DW2. 0 中 为 一 个 至 关 重 要 的 方面 是 数据 库 管理 ， 它 要 完成 数据 库 的 日 和 常 关注 和 管理 。 
这 是 一 项 技术 工作 ， 需 要 了 解 如 何 存储 数据 库 ， 如 何 恢 复 丢 失 的 事务 ， 如 何 判 断 何 时 丢 
失事 务 ， 当 数据 库 关 闭 时 如 何 备 份 数据 库 等 问题 。 

简 而 言 之 ， 当 数据 库 出 现 问 题 时 ， 数 据 库 管理 员 负 责 完 成 对 数据 库 的 备份 并 使 其 运转 。 

数据 库 管理 的 挑战 之 一 是 DW2. 0 环境 所 需 的 数据 库 管 理 活 动 的 绝对 数量 。 数 据 库 及 
表 是 如 此 之 多 ， 以 致 于 数据 库 管 理 员 在 任何 一 个 数据 库 上 投入 大 量 的 时 间 都 是 不 可 能 的 。 
因为 它们 的 数量 太 多 ， 而 且 每 个 数据 库 都 非常 重要 ， 因 此 ， 管 理 员 需 要 用 工具 来 查看 这 
些 组 成 DW2.0 环境 的 众多 数据 库 和 表 的 多 个 方面 。 

DW2.0 中 对 数据 库 进 行 管 理 需要 考虑 以 下 问题 : 

。 为 DW2.0 环境 中 数据 库 管 理 的 监视 而 选择 工具 。 

。 为 DW2.0 环境 中 的 数据 曲线 及 对 其 所 带 来 痛苦 的 预防 而 选择 工具 。 

。 确保 在 需要 时 能 使 用 这 些 工 具 。 

通常 ， 数 据 库 管理 是 个 一 周 7 天 、 每 天 24 小 时 的 工作 。 负 责 数 据 库 管理 的 人 应 该 是 在 
所 有 时 间 都 随 叫 随 到 ， 并 当 出 现 问题 时 能 够 给 出 怎么 去 做 的 建议 。 尤 其 是 在 交互 环境 下 ， 当 
数据 库 发 生 问题 时 ， 数 据 库 管 理 员 要 尽 可 能 地 主动 ， 因 为 故障 和 停机 都 会 让 人 对 环境 不 满 
意 。 但 主动 处 理 是 很 困难 的 ， 因 为 数据 库 管理 员 所 要 应 对 的 绝 大 多 数 任务 都 是 有 反作用 的 。 


23.5 数据 管理 


近 些 年 ， 管 理 和 遵循 准则 已 经 成 为 一 个 大 的 问题 ， 因 此 数据 管理 的 角色 也 就 成 为 一 
重要 话题 。 过 去 数据 管理 的 工作 仅仅 是 系统 的 数据 输入 和 输出 ， 而 现在 ， 数 据 的 质量 和 
准确 性 已 变 得 非常 重要 。 

在 此 构架 中 ， 数 据 管理 已 被 提升 到 被 公认 为 需要 承担 责任 的 位 置 上 。 

数据 管理 工作 需要 承担 以 下 工作 : 
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。 确定 哪些 数据 元 素 构 成 了 记录 系统 。 

。 对 这 些 数 据 元 素 的 数据 质量 标准 的 规范 说 明 。 

。 这 些 数 据 元 素 的 相关 算法 和 公式 的 规范 说 明 。 

为 了 区 分 数据 库 管 理 员 的 职责 和 数据 管理 员 的 职能 ， 需 要 考虑 以 下 问题 。 当 数据 库 出 
现 故 障 并 对 系统 不 可 用 时 ， 或 是 当 性 能 下 降 并 且 出 现 一 个 整体 的 系统 停机 时 ， 需 要 数据 
库 管 理 员 来 处 理 ; 而 当 终端 用 户 发 现 记录 中 存在 错误 值 时 ， 或 当 需 要 设计 新 的 数据 库 以 
及 考虑 数据 来 源 和 数据 转换 时 ， 就 需要 数据 管理 员 了 。 

因此 ， 数 据 库 管 理 员 和 数据 管理 员 负 责 不 同 的 事情 。 通 常 ， 数 据 库 管 理 员 是 技术 人 员 ， 
而 数据 管理 员 是 业务 人 员 。 试 图 将 数据 管理 员 的 工作 看 成 是 技术 性 的 工作 通常 是 不 对 的 。 

数据 管理 员 的 一 些 工作 包括 : 

”可 以 承担 数据 库 的 设计 工作 ， 尤 其 是 设计 中 包含 转换 和 映射 的 设计 。 

。 能 够 回答 指定 数据 元 素 内 容 的 相关 问题 。 

。 讲解 给 业务 分 析 人 员 都 有 哪些 数据 以 及 如 何 最 好 地 解释 这 些 数 据 。 

。 确保 能 够 准确 地 设计 映射 和 转换 。 

。 描述 如 何 完 成 算法 和 程序 逻辑 以 能 反映 数据 真正 的 业务 含义 。 

一 个 大 型 企业 通常 有 多 个 数据 管理 员 ， 且 多 是 由 业务 人 员 来 承担 这 个 角色 。 任何 时 
修 ， 每 个 原始 数 都 有 且 只 有 一 个 与 之 对 应 的 数据 管理 员 。 如 果 一 个 数据 元 素 在 任何 时 候 
没有 或 有 多 个 数据 管理 员 ， 都 将 会 出 现 问 题 。 


23.6 系统 和 技术 管理 


系统 和 技术 管理 是 DW2. 0 环境 的 一 个 整体 部 分 。DW2.0 环境 最 终 运 行 于 多 个 平台 之 
上 。 由 于 数据 、 处 理 以 及 对 DW2. 0 不 同 部 分 的 要 求 等 都 是 多 样 的 ， 所 以 只 用 一 个 平台 来 
服务 于 整个 DW2. 0 环境 的 情况 是 不 常见 的 。 相 反 ， 需 要 结合 使 用 多 种 不 同 技术 和 平台 以 
满足 DW2. 0 处 理 的 需要 。 

DW2.0 中 有 的 地 方 要 求 有 很 高 的 性 能 ;有 的 地 方 关注 于 数据 整合 ， 有 的 地 方 要 求 能 
对 数据 进行 长 时 间 的 存储 ; 还 有 的 地 方 则 需要 满足 终端 用 户 的 分 析 需 求 。 简 而 言 之 ， 就 
征 存 在 着 许多 不 同 的 标准 来 确定 在 不 同 地方 DW2. 0 环境 是 否 是 成 功 的 。 

由 于 存在 着 许多 不 同 的 需求 ， 所 以 没有 一 种 单一 的 技术 或 平台 能 同时 满足 所 有 的 需求 
也 就 不 足 为 怪 了 。 

内 此 ，DW2. 0 中 技术 和 系统 的 管理 员 需 要 充当 多 种 角色 ， 属 于 技术 管理 员 的 任务 有 

。 你 证 技术 兼容 性 ， 例 如 ， 确 保 数 据 能 在 不 同 环境 下 传送 ， 系 统 的 性 能 不 受 其 他 系 

统 影响 ， 数 据 能 在 所 有 的 系统 间 整 合 ， 以 及 确保 在 整个 环境 中 的 可 用 性 等 。 

。 确保 对 DW2.0 中 所 有 组 件 有 一 个 长 期 的 发 展 计划 。 

保证 元 数据 在 DW2. 0 环境 的 各 组 件 间 有 意义 地 交换 。 

。 确保 终端 用 户 清楚 地 了 解 对 于 不 同 的 处 理 ， 应 用 DW2. 0 中 的 哪些 组 件 是 合适 的 。 

。 网 络 管理 一 一 确保 整个 DW2. 0 环境 中 能 够 且 高 效 地 进行 通信 ，。 

。 定时 一 一 确保 数据 间 能 够 以 一 种 流畅 无 阻 的 方法 相连 接 。 

。 性 能 一 一 确保 整个 DW2. 0 环境 的 性 能 是 可 接受 的 。 

。 可 用 性 一 一 确保 DW2.0 中 的 各 个 组 件 在 需要 时 能 正常 运行 。 
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。 确保 在 终端 用 户 需 要 时 所 需 的 元 数据 流 是 可 用 的 。 

技术 管理 员工 作 的 一 项 重要 内 容 是 容量 规划 。 技 术 管 理 员 的 工作 在 很 多 方面 都 类 似 于 
数据 库 管 理 员 的 工作 。 技 术 操 作 在 很 多 时 候 是 以 交互 模式 进行 的 ， 且 没有 人 育 欢 一 直 被 
昨天 已 经 完成 的 事情 所 烦恼 。 而 这 也 正 是 技术 员 及 数据 库 管理 员 都 可 能 过 到 的 情况 。 

技术 员 想 要 摆脱 交互 模式 工作 的 一 个 重要 办 法 是 进行 适当 的 容量 规划 。 并 不 是 所 有 差 
错 和 问题 都 与 容量 相关 ， 但 在 大 多 数 情 况 下 是 这 样 的 。 当 有 是 够 的 容量 时 ， 系 统 会 正常 
工作 。 当 容量 不 足 时 ， 系 统 会 发 生 崩 演 ， 出 现 很 多 不 同 表 现 。 

在 DW2. 0 环境 中 技术 员 需 要 注意 几 种 容量 及 相关 的 指标 ， 包 括 : 

e。 内 存 ， 对 所 有 类 型 的 处 理 ， 尤 其 是 交互 环境 下 的 在 线 事务 人 处理 
队列 长 度 和 容量 (队列 长 度 在 系统 中 通常 是 一 个 瓶颈 值 ) 
缓存 容量 和 命中 率 
硬盘 空间 
近 线 空间 
归档 空间 
归档 处 理 
网 络 容量 

。 等 等 

通过 观察 以 上 各 种 指标 ， 技 术 员 能 够 在 许多 问题 发 生前 就 先行 处 理 它 。 

还 有 其 他 一 些 重要 指标 ， 包 括 整 合 区 中 休眠 数据 的 增加 、 近 线 存储 的 增长 、 归 档 存 储 
的 增长 、 整 个 环境 中 数据 访问 概率 的 测量 、 网 络 瓶颈 ， 等 等 。 简 而 言 之 ， 技 术 员 在 任何 
地 方 能 提前 避免 重要 的 短缺 问题 都 会 更 好 。 

管理 终端 用 户 的 关系 和 期 望 是 DW2. 0 环境 下 的 一 项 非常 重要 的 管理 工作 ， 如 果 管 理 
员 忽 视 了 这 一 点 ， 管 理 就 会 存在 很 大 风险 。 终 端 用 户 期 望 的 管理 方式 包括 : 

。 设立 服务 台 。 

。 定期 发 布 针 对 如 何 使 用 DW2.0 的 包含 成 功 案例 和 帮助 提示 的 实时 简讯 。 

。 偶尔 在 内 部 开设 一 些 讲述 DW2.0 环境 各 个 方面 的 内 容 与 使 用 的 课程 。 

。 实行 指导 委员 会 ， 这 样 终端 用 户 就 可 以 决定 优先 权 和 进度 ， 或 至 少 给 出 一 些 意见 。 
e 让 终端 用 户 参 与 DW2. 0 环境 完整 的 设计 和 开发 周期 。 


实行 一 体 的 “展示 和 讲述 ”会 议 ， 并 由 此 实行 内 部 会 议 。 
偶尔 让 外 部 专业 人 员 参 加 短期 研讨 会 ， 以 补充 DW2. 0 的 经 验 和 信息 。 

SLA 〈 即 服务 标准 协议 ) 的 建立 ， 也 是 管理 终端 用 户 关系 的 重要 部 分 ，SLA 是 在 
DW2. 0 中 日 党 的 处 理 中 测量 的 。SLA 提供 了 一 个 可 度量 的 开放 的 系统 性 能 记录 。 建 立 
SLA 对 终端 用 户 和 技术 员 都 有 帮助 。 通 常 ，SLA 同时 解决 了 在 线性 能 和 可 用 性 的 问题 。 另 
外 ， 分 析 环 境 中 使 用 的 SLA 和 事务 环境 中 使 用 的 SLA 有 很 大 的 不 同 。 

有 时 候 在 DW2.0 中 需要 进行 统计 处 理 ， 此 时 技术 员 必 须 和 仔细 监视 统计 处 理 对 资源 利 
用 的 影响 。 到 一 定 程度 时 ， 需 要 建立 单独 的 设备 来 研究 统计 分 析 。 


23.7 DW2.0 环境 管理 人 员 的 管理 


管理 人 员 涉 及 所 有 的 管理 活动 ， 其 任务 就 是 保证 满足 管理 DW2.0 环境 的 各 个 目标 和 
日 的 。 如 下 是 其 中 一 些 重 要 的 方面 。 
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23.7.1 优化 及 优先 冲突 


当面 临 优化 问题 时 ， 人 们 就 都 会 出 现在 经 理 办 公 室 中 。 几 乎 总 是 会 出 现 这 样 的 情况 ， 
即 一 些 部 门 要 对 DW2.0 进行 修改 和 添加 操作 ， 与 此 同时 男 一 个 部 门 也 要 对 其 进行 修改 和 
深 加 操 作 。 此 时 经 理 的 工作 就 是 解决 (至 少 是 改善 ) 这些 冲突 。 一 些 典 型 的 考虑 和 包括. 

。 在 DW2.0 中 添加 哪些 组 件 可 以 得 到 最 大 的 财政 回报 。 

。 在 DW2.0 中 添加 哪些 组 件 最 容易 、 最 快 。 

。 在 DW2.0 中 添加 哪些 组 件 可 以 在 组 织 机 构 可 接受 的 时 间 框 架 内 完成 。 

。 在 DW2.0 中 添加 哪些 组 件 可 以 得 到 最 大 的 战略 回报 。 

对 于 企业 ， 当 需要 决定 添加 或 修改 的 顺序 时 ， 管 理 人 员 必 须 仔 细 思 考 这 些 问 题 ， 此 
外 ， 在 管理 DW2. 0 环境 时 还 有 其 他 要 考虑 的 问题 。 


23.7.2 预算 


预算 是 管理 人 员 影 响 组 织 机 构 的 主要 方式 。 得 到 了 资金 的 项 目 就 可 以 继续 进行 ， 而 没 
有 得 到 资金 的 项 目 则 无 法 继续 进行 。 预 算 分 为 长 期 预算 和 短期 预算 。 在 DW2. 0 环境 中 ， 
儿 乎 所 有 的 事情 都 是 以 迭代 的 方式 完成 的 。 这 就 意味 着 管理 人 员 有 机 会 做 一 些 长 期 和 短 
期 的 纠正 ， 这 也 是 预算 过 程 中 很 正常 的 一 部 分 。 


23. /3 进度 表 和 里 程 碑 的 确定 


里 程 碑 和 进度 表 的 设置 是 管理 人 员工 作 中 的 一 个 重要 部 分 。 通 常 ， 管 理 人 员 并 不 创建 
了 最初 的 进度 表 和 里 程 碑 ， 而 是 让 项 目 组 提出 进度 表 和 里 程 碑 。 然 后 ,管理 人 员 批 准 这 些 
可 接受 的 进度 表 和 里 程 碑 。 由 于 DW2. 0 的 各 方面 几乎 都 是 以 迭代 方式 来 构建 的 ， 管 理 人 
员 也 就 有 足够 多 的 机 会 来 影响 整体 的 进度 表 。 


23.7.4 资源 分 配 


经 理 选 择 谁 来 领导 项 目 是 一 门 艺术 。 一 种 学 派 的 观点 是 ， 当 项 目 出 现 问题 时 ， 就 投入 
蝎 多 资源 。 不 幸 的 是 ， 这 会 向 组 织 机 构 传递 一 种 错误 的 信息 : 一 种 能 够 得 到 更 多 资源 的 
可 徘 方 法 就 是 让 项 目 陷 入 麻烦 中 。 还 有 一 种 方法 是 任何 项 目 陷 和 人 麻烦 时 就 解雇 项 目 负 责 
八 。 不 垃 的 是 ， 有 很 多 合理 的 情况 会 使 一 个 项 目 陷 和 麻烦。 管理 的 艺术 在 于 确定 即将 面 
是 的 情况 ， 并 做 出 合适 的 决定 。 换 一 种 说 法 ， 就 是 管理 人 员 要 能 够 分 辨 出 快速 碾 过 减速 
审 和 掉 下 悬崖 的 区 别 。 


23.7.5 管理 咨询 人 员 


由 于 缺少 关于 DW2.0 中 的 开发 技能 ， 企 业 向 外 面 的 咨询 人 员 寻 求 帮助 是 非常 正当 的 。 
营 理 人 员 需 要 能 够 客观 地 挑选 咨询 公司 ， 而 不 一 定 挑选 那些 首选 的 公司 ， 原 因 是 首选 的 
公司 可 能 没有 任何 经 验 。 另 外 ,管理 人 员 需 要 警惕 那些 咨询 公司 ， 他 们 以 能 力 为 卖点 ， 
却 为 项 目 配 备 了 一 些 新 雇用 的 正在 摸索 经 验 的 职员 ,这 是 以 牺牲 客户 利益 为 代价 的 。 有 
多 种 办 法 可 确保 咨询 公司 不 向 不 知情 的 企业 “出 售 货 物 ”. 

”个 要 签 戎 超过 12 个 月 的 合同 。 假 如 这 个 咨询 公司 是 值得 雇用 的 ， 那 么 12 个 月 后 ， 

如 果 工 作 圆满 完成 了 就 继续 签署 合同 。 相 反 ， 如 果 没 有 按照 合同 的 规定 很 好 地 完 
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成 工作 ， 那 么 就 再 雇用 新 的 咨询 公司 。 

确保 有 切实 可 行 的 短期 交付 物 。 这 是 判断 是 否 真正 取得 进展 的 一 个 好 方法 。 
确保 咨询 公司 具体 说 明 都 有 谁 参与 项 目 ， 关 键 职位 是 关于 设计 和 管理 工作 的 。 
安置 两 三 名 企业 职员 负责 项 目的 关键 职位 ， 与 顾问 一 起 手把手 工作 。 这 样 一 旦 出 
现 问题 ， 企 业 职 员 自 己 能 够 判断 是 否 需 要 通知 管理 人 员 。 

将 各 种 关键 的 设计 都 写成 文档 ， 并 保证 任何 时 间 这 些 文档 对 管理 人 员 都 是 可 用 的 。 
检查 咨询 公司 的 各 项 资格 证 明 。 不 要 仅仅 因为 咨询 公司 是 一 家 大 型 的 知名 公司 ， 
就 轻易 地 认为 它 一 定 能 建立 DW2.0 环境 。 

警惕 咨询 公司 禁止 外 来 专家 偶尔 对 工作 进行 审查 。 一 家 有 信心 、 有 实力 的 咨询 公 
司 会 很 乐意 让 其 他 专家 进行 审查 ， 尤 其 是 设计 、 开 发 、 实 施 出 现 问题 的 时 候 。 
警惕 与 便 件 /软件 供应 商 绑 定 在 一 起 的 咨询 公司 。 咨 询 公 司 提出 的 建议 常常 是 一 种 
可 察觉 的 供应 商 的 产品 。 

公开 与 其 他 企业 共享 管理 经 验 。 如 果 其 他 管理 人 员 公 开 讨 论 他 们 的 经 验 ， 那么 你 
可 以 从 中 学 到 很 多 东西 。 

和 警惕 展示 一 个 别 的 公司 的 经 理 的 供应 商 。 大 多 数 情 况 下 ， 这 些 经 历 都 有 一 些 你 并 
不 知道 的 安排 。 在 某 些 情况 下 ， 咨 询 公司 的 经 理事 实 上 就 是 供应 商 的 雇员 ， 或 至 
少 是 供应 商 的 代理 。 

警惕 供应 商事 先 安排 好 咨询 公司 以 达到 他 们 自己 的 目的 。 很 多 软件 供应 商 与 咨询 
公司 秘密 “勾结 " ， 你 获得 的 评估 结果 很 可 能 不 正确 。 

警惕 那些 声称 做 产品 套件 的 市 场 评 估 的 公共 顾问 。 这 些 顾问 与 供应 商 经常 做 一 些 秘 
密 的 安排 ， 目 的 就 是 诱 使 你 购买 他 们 的 产品 ， 而 不 是 给 你 一 些 诚实 的 产品 市 场 评估 。 
警惕 那些 声称 做 市 场 研 究 和 和 产品 评估 的 公司 。 你 应 该 清楚 ， 很 多 调查 公司 会 向 
供应 商 出 售 一 些 服务 ， 这 会 对 供应 商 的 产品 评估 产生 影响 。 如 果 市 场 评估 公司 声 
明了 他 们 花 在 市 场 调查 以 及 产品 评估 上 的 费用 ， 那么 供应 商 的 评估 就 是 有 效 的 。 
但 如 果 市 场 调 查 公 司 隐瞒 了 对 供应 商 进 行 评估 的 费用 ， 那 么 市 场 调查 公司 所 做 的 
各 项 建议 及 评定 就 一 定 是 不 可 信和 的 。 


总 结 


总 之 ，DW2.0 环境 的 管理 工作 体现 在 很 多 方面 ， 包 括 : 


数据 模型 
ETL 环境 
数据 库 
管家 
技术 及 系统 
网 络 管理 
归档 处 理 
近 线 存储 
交互 处 理 
元 数据 管理 


